当前位置：首页 » 资讯 » 新科技 » 正文

谷歌IMO金牌模型可以用了！推理性能秒了o3、Grok 4

IP属地中国·北京 编辑：唐云泽量子位 时间：2025-08-02 10:17:12

金磊发自凹非寺
量子位 | 公众号 QbitAI
谷歌拿下IMO（国际数学奥林匹克竞赛）金牌的模型——Gemini 2.5 Deep Think，现在可以用起来了。

根据谷歌DeepMind的最新消息，这个模型已经在Gemini App中推出。
并且这个发布的版本，跟拿下IMO金牌的版本还有略微的区别。
之前的模型需要好几个小时才能解决复杂的数学问题，但App中发布的版本，速度会更快，实用性也会更强。
但相对的，实力定然不如之前的“完全体”，不过同样是拿IMO’25的试题实验，可以达到铜牌的水平。
DeepMind在发布Gemini 2.5 DeepThink之际，还拉来了数学家Michel van Garrel来站台：
当我问它一个猜想，我大概有三个思路，但它似乎在考虑20甚至100个
不过这个模型只对Ultra的订阅用户开放，每月订阅费为249.99美元，折合人民币约1803元。
推理性能超越o3、Grok 4
除了“发布”的动作之外，DeepMind这次还秀了一波推理性能的肌肉，对标的选手是OpenAI的o3和马斯克的Grok 4。
主要考量的能力聚焦在了编码、科学、知识和推理能力上。
结果显示，在衡量代码性能的LiveCodeBench V6测试中，以及在衡量不同领域（包括科学和数学）专业知识的Humanity’s Last Exam测试中，与不使用工具的其他模型相比，Gemini 2.5 Deep Think均取得最好的成绩。

整体来看，Gemini 2.5 Deep Think功能具备以下优势：
迭代式开发与设计：DeepMind团队对Deep Think在需要逐步构建复杂事物的任务中的表现印象深刻。例如，Deep Think能够提升网页开发任务的美观性和功能性。

科学与数学领域的发现：由于能够通过极其复杂的难题进行推理，深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想，或者对复杂的科学文献进行推理分析，从而有可能加快发现的过程。算法开发与代码编写：Deep Think在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。
至于其背后的原理，DeepMind总结了一句话：
扩展Gemini的并行“思考时间”。
具体而言，正如人类在解决复杂问题时，会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样，Deep Think通过使用并行思维技术，拓展了思维能力的边界。
这种方法让Gemini能够一次性生成众多想法并同时进行考量，甚至随着时间的推移修正或结合不同的想法，最终得出最佳答案。
此外，通过延长推理时间或“思考时间”，DeepMind为Gemini提供了更多时间去探索不同的假设，并为复杂问题找到创造性的解决方案。
DeepMind还开发了新颖的强化学习技术，旨在激励模型利用这些扩展的推理路径，从而使Deep Think随着时间的推移，成为一个更出色、更直观的问题解决者。
团队成员还表示，Gemini 2.5 Deep Think用来看论文：
它不只是简单地复述研究论文，而是能以我前所未见的方式，融合不同论文中的观点。

参考链接：
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/
[2]https://x.com/SamuelAlbanie/status/1951322935198630356

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

张文宏再谈AI：“灵魂”与“共情”无法被取代

5小时众筹破百万美金，Tiiny AI为什么能卖爆

拨快创新的“秒针”：上海三本新刊如何将学术表盘交还实验室？

小鹏天玑AI OS 6.1今日开启全量推送：辅助驾驶重磅升级原地就能开启NGP

今日最佳：自制力太差怎么赚钱？

少爷兵”腾讯，被AI揪出空调房

全站最新

张文宏再谈AI：“灵魂”与“共情”无法被取代

5小时众筹破百万美金，Tiiny AI为什么能卖爆

拨快创新的“秒针”：上海三本新刊如何将学术表盘交还实验室？

小鹏天玑AI OS 6.1今日开启全量推送：辅助驾驶重磅升级原地就能开启NGP

热门推荐

兆瓦级氢燃料航空涡桨发动机首飞成功

张文宏再谈AI：“灵魂”与“共情”无法被取代

何小鹏：中国汽车行业已进入转折最关键阶段，规模只是第一个门槛

5小时众筹破百万美金，Tiiny AI为什么能卖爆

拨快创新的“秒针”：上海三本新刊如何将学术表盘交还实验室？

小鹏天玑AI OS 6.1今日开启全量推送：辅助驾驶重磅升级原地就能开启NGP

秀我中国｜备战人形机器人半程马拉松，“西湖o1”“智能背包”亮相

今日最佳：自制力太差怎么赚钱？

少爷兵”腾讯，被AI揪出空调房

关停Sora后OpenAI转身收购TBPN播客，亲自下场做媒体

中小公司小程序制作平台推荐？开发一套小程序要多少钱？

北京市互联网新闻信息服务单位许可信息（截至2026年3月31日）

热点炸屏！美团京东屏蔽竞品AI大模型，2026大模型发展何去何从？

Patagonia关联公司曾因虚假宣传被罚

皖能电力旗下新能创业投资公司增资至78.2亿增幅约104%