当前位置：首页 » 资讯 » 新科技 » 正文

DeepSeek上新：开源模型首达IMO金牌水平，AI推理告别“死记硬背”

IP属地中国·北京 观察者网 时间：2025-11-28 16:14:35

（文/陈济深编辑/张广凯）
在OpenAI发布GPT-5.1、谷歌推出Gemini 3系列的背景下，国内AI独角兽DeepSeek虽然迟迟未能带来基座模型的大更新，但也于本周三晚间低调发布了其最新的技术成果DeepSeek-Math-V2。
据官方披露的技术报告显示，DeepSeek-Math-V2拥有685B参数量，专注于提升大语言模型的数学推理与定理证明能力。在多项高难度数学竞赛基准中，该模型交出了一份极具冲击力的成绩单。
首先是顶尖竞赛表现，在2025年国际数学奥林匹克竞赛（IMO 2025）和2024年中国数学奥林匹克竞赛（CMO 2024）中，Math-V2均达到了金牌水平。特别是在被称为“数学界炼狱”的普特南（Putnam 2024）数学竞赛中，通过扩展测试计算（Test-time Compute），该模型取得了118分（满分120分）的近乎满分成绩，远超人类选手约90分的历史最高分记录。

其次是基准测试对比，在IMO-ProofBench基准测试的基础集（Basic）上，Math-V2得分接近99%，大幅领先谷歌旗下Gemini DeepThink (IMO Gold) 的89%。
在难度更高的进阶集（Advanced）上，Math-V2得分61.9%，虽然略低于Gemini DeepThink的65.7%，但作为开源模型，其性能已无限接近闭源商用模型的顶尖水平。
此外，团队在论文中透露，在自主构建的91个CNML（中国国家数学实验室）级别问题测试中，Math-V2在代数、几何、数论、组合学和不等式等所有类别中，均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现。
从“做题机器”到“严谨数学家”
DeepSeek此次发布的时间点颇为耐人寻味。就在模型开源前不到24小时，前OpenAI首席科学家、AI教父Ilya Sutskever在一场访谈中直言，当前的AI模型更像是一个只会“死记硬背”的做题机器。DeepSeek Math-V2的发布仿佛是一次跨越时空的回应，其核心技术革新正是为了解决Ilya所担忧的“推理假象”问题，展现出一种不再满足于单纯结果正确的技术自觉。
传统的AI训练模式往往陷入“结果导向”的陷阱，即只要最终答案正确就给予模型奖励（Reward）。这种机制容易导致AI产生投机行为，为了获取奖励而猜测答案，即便中间逻辑混乱甚至错误。DeepSeek在技术论文中一针见血地指出，正确的答案并不保证正确的推理。为了根除这种“混子”行为，Math-V2采取了严苛的“死磕过程”策略。模型必须展示清晰、严谨的分步推导过程，只要中间步骤出现逻辑断裂，即便最终结果正确，系统也不会给予正向反馈。这一转变逼迫AI必须真正理解题目逻辑，而非依赖概率上的运气。

为了精准评估这些复杂的推理步骤，DeepSeek独创了一套多层级的“元验证”（meta-Verification）机制。在以往的训练中，给AI的解题步骤打分是一项极具挑战的任务，单一的AI评判者也容易看走眼。为此，团队设计了一种类似“套娃”的监督架构：在AI“学生”做题、AI“老师”批改的基础上，引入了更高层级的“校长”角色来审查判卷的合理性。如果“老师”出现误判，“校长”会进行纠正。这种层层嵌套的监督体系，直接将评分系统的置信度从0.85提升至0.96，极大地保证了训练数据的质量。
更引人注目的是，Math-V2展现出了类似人类“三省吾身”的自我反思能力。在处理高难度定理证明时，模型不再是一路狂奔直达终点，而是像一位严谨的数学家一样，在推理过程中通过测试时间计算（Test-time Compute）进行停顿和自省。一旦发现逻辑漏洞，模型会自主推翻重写，直到逻辑链条无懈可击。这种从盲目计算向深思熟虑的进化，表明通往超级智能的路径并非只有算力的堆叠，更需要这种懂得“回头看”的智慧。
开源生态的强力反击
DeepSeek Math-V2的发布在海外开发者社区引发了强烈反响，被舆论称为“鲸鱼回归（The Whale is back）”。市场分析人士认为，DeepSeek以10个百分点的优势在基础基准上击败谷歌获奖模型，打破了顶级推理模型长期被闭源巨头垄断的局面。
有资深算法工程师对观察者网表示：“DeepSeek验证了‘自验证推理路径’的可行性。数学推理能力是代码生成、科学计算等任务的基石。行业普遍推测，DeepSeek极有可能将这一逻辑验证能力迁移至编程模型（Coding），届时将对现有的代码辅助工具市场产生巨大冲击。”
目前，全球AI大模型正处于从“文本生成”向“逻辑推理”进化的关键窗口期。DeepSeek此次“亮剑”，不仅证明了国产模型在高端算法领域的竞争力，也为开源社区提供了一条清晰的技术演进路线——即通过构建严谨的验证机制，而非单纯堆砌算力，来实现机器智能的质变。
目前DeepSeek新模型的代码与权重已在Hugging Face及GitHub平台完全开源，行业期待其后续在通用旗舰模型上的进一步动作。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

库克点赞：苹果2025假日短片暖心上线，全程iPhone 17 Pro拍摄

苹果iPhone手机今年全球出货量有望14年来首次超越三星

vivo向开放原子开源基金会捐赠Rust自研操作系统内核

二手车，正在成为年轻人的第一辆车

淘宝闪购将全面取消超时扣款

立邦亮相2025中国数智化年会

全站最新

库克点赞：苹果2025假日短片暖心上线，全程iPhone 17 Pro拍摄

苹果iPhone手机今年全球出货量有望14年来首次超越三星

vivo向开放原子开源基金会捐赠Rust自研操作系统内核

二手车，正在成为年轻人的第一辆车

热门推荐

vivo OriginOS 6新一轮公测启动：蓝河流畅引擎+AI赋能，老机型焕发新活力

张朝阳：搜狐视频将加大美剧和美国电影采购

京东“国民好车”埃安UT super已启动批量交付

滴滴Q3日均订单破5000万国际出行业务前三季度累计盈利

消息称特斯拉9月份就已开始提高柏林超级工厂Model Y产量部分已出口

鸿蒙OS崛起成全球第三大移动系统与iOS安卓三分天下

苹果iPhone 17引领双11手机市场逆袭，华为小米销量承压

雷军称所有产业都值得用AI再做一遍：可大幅提升生产效率

雷军回应小米汽车轮毂设计：“丢轮保命”最大程度守护乘员舱

Getty 警告:若 Shutterstock 交易被阻，将影响其在英国的运营

谷歌因需求激增收紧 Gemini 3 Pro 免费用户使用限制

山西煤炭工业互联网平台高质量数据集清单发布

李斌Q3闭门会：放下搞事的想象力，蔚来要聚焦做好汽车

清华系团队攻克AI触觉感知核心技术，占据全球人形机器人80%市场丨36氪首发

库克点赞：苹果2025假日短片暖心上线，全程iPhone 17 Pro拍摄