当前位置：首页 » 资讯 » 新科技 » 正文

不只是“做题家”！DeepSeek最新模型打破数学推理局限，部分性能超越Gemini DeepThink

IP属地中国·北京 钛媒体APP 时间：2025-11-28 14:13:52

或许人们还沉浸在Gemini 3带来的冲击中，但就在11月27日晚间，DeepSeek在AI开源社区Hugging Face上发布其最新数学模型DeepSeek Math-V2一事，再次引起AI圈内一片沸腾。
在一同发布的论文中，DeepSeek方面表示，该模型通过自验证的方式突破了目前AI在深度推理方面的局限，尤其是针对大模型在数学领域“只是做题家，难成数学家”的症结，即，只重视答案却无法保证推理过程的严谨、正确。
DeepSeek以验证器为奖励模型训练证明生成器，并激励生成器在最终定稿前尽可能多地识别和解决自身证明中的问题，并通过扩展验证计算能力，自动标记新的难以验证的证明，从而创建训练数据以进一步改进验证器。
最终，Math-V2诞生了。
DeepSeek称，这款模型展现了强大的定理证明能力。换句话说，与此前大多大模型在数学方面的表现不同，Math-V2不再只是“做题家”，而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深远影响。
DeepSeek也列举了多项验证该模型的强大的证据：Math-V2在IMO（国际数学奥林匹克竞赛）2025和CMO（中国数学奥林匹克）2024上都取得了金牌级成绩，在北美大学生数学竞赛Putnam 2024上通过扩展测试计算实现了接近满分的成绩（118/120）。
此前，今年7月，OpenAI和谷歌都曾宣布其模型在IMO2025中取得了金牌级成绩，一度形成大模型数学能力天花板。相比于二者，DeepSeek的Math-V2不仅是首个开源的IMO金牌级模型，在测试中，也在部分性能上展现出了更大的优势。
在IMO-Proof Bench评估中，基准测试方面Math-V2得分居首，高达99%，高于谷歌的Gemini Deep Think（IMO Gold）的89%和GPT 5的59%。在进阶测试上，Math-V2得分61.9%，仅次于Gemini Deep Think（IMO Gold）的65.7%。

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
DeepSeek方面表示，尽管仍有许多工作要做，但这些结果表明，自验证数学推理是一个可行的研究方向，可能有助于开发更强大的数学AI系统。
这款突破性的开源数学模型发布后，再次在社交平台、reddit、Hacker News等评论区、社区引发热潮。
其在测试、竞赛成绩和自验证方面形成的数学定理证明能力突破，最令人关注。
“从‘结果导向’的验证转向‘过程导向’的验证，这对于定理证明尤为重要，因为在定理证明中，严格的逐步推导比数值答案更重要。” “虽然还不清楚具体用途，但拥有一位全天候免费提供的数学天才，其潜力巨大。” “这款开源模型会大大有助于自动化许多注重验证的编程语言中的繁琐工作！”
由研究人员和工程师组成的跨学科团队Binary Verse AI发文称，一个开源模型悄无声息地发布，却突破了本科数学的瓶颈。该文章作者阿兹马特（Azmat）提到，Math-V2的有趣之处不仅在于竞赛分数，更在于其方法。

DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad，Binary Verse AI
“如果你曾经批改过数学试卷，你就会明白猜对答案的学生和真正推导出答案的学生之间的区别。”阿兹马特认为，此前的大模型多属于前者，只是概率性的猜测者，而Math-V2的出现改变了这一切。
文章总结称，我们正从“聊天机器人”时代过渡到“推理者”时代。Math-V2证明了可自验证的数学推理是可以解决的。或许，人类不需要通用人工智能（AGI）来获得严谨的数学运算能力，只需要教会模型保持谦逊。
社交平台上，不少AI领域的KOL和知名专家都在转发消息并表示“DeepSeek强势回归”“这是你无法忽视的力量”。

图片来自社交平台X
虽然DeepSeek R2的“难产”已经成为了AI领域玩梗级别的存在，但实际上，不管是10月发布、让OpenAI联合创始人大神安德烈·卡帕斯（Andrej Karpathy）盛赞的探索视觉-文本压缩边界的DeepSeek-OCR，还是刚刚发布的Math-V2，都提示着人们：别忘了，今年AI领域的惊喜，正是从DeepSeek开始的。（作者｜胡珈萌，编辑｜李程程）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

2159亿美元“算力税”，英伟达大客户想逃离了

算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

Anthropic妥协了

垂直Agent之间，在意图层如何竞争?

频繁上新这一年，小红书发生了什么？

科技前沿 | 国产大模型位居全球榜首！前10中有8款来自中国

全站最新

2159亿美元“算力税”，英伟达大客户想逃离了

算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

Anthropic妥协了

垂直Agent之间，在意图层如何竞争?

热门推荐

2159亿美元“算力税”，英伟达大客户想逃离了

算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

Anthropic妥协了

垂直Agent之间，在意图层如何竞争?

微软万年存储技术曝光！2毫米玻璃装下200万本书，“卷翻”硬盘天花板

频繁上新这一年，小红书发生了什么？

科技前沿 | 国产大模型位居全球榜首！前10中有8款来自中国

Meta花2亿美元挖来的华人天才少年转投OpenAI

放弃14亿薪酬！华人AI大牛庞若鸣从Meta跳槽到OpenAI

谷歌收编机器人软件领域姊妹企业Intrinsic

中国AI调用量首次超过美国四款大模型霸榜全球前五

中国AI调用量首超美国四款大模型如何实现弯道超车？

「好用又便宜」的 Nano Banana 2 来了，这次能改变你的出图工作流吗？

AI泡沫担忧升温！英伟达财报超预期股价却重挫5.6%，创三个月最大盘中跌幅

看差距！看合作！默茨直奔杭州宇树科技