当前位置: 首页 » 资讯 » 新科技 » 正文

截胡OpenAI:谷歌率先公测“数学奥赛金牌级”AI推理模型

IP属地 中国·北京 IT之家 时间:2025-12-05 14:17:13

IT之家 12 月 5 日消息,科技媒体 NeoWin 今天(12 月 5 日)发布博文,报道称谷歌面向 Gemini Ultra 订阅(月费 249.99 美元)用户,推出了 Gemini 3 Deep Think(深度思考)模式。

相比较标准版 Gemini 3 Pro 模型,Deep Think 模式调用了更多计算资源,并采用了全新技术架构。该功能目前已完全集成至 Gemini App 中,Google AI Ultra 订阅用户即日起可通过在提示栏中选择“Deep Think”与 Gemini 3 Pro 模型搭配使用。


谷歌官方数据显示,Deep Think 模式在处理复杂数学、科学及逻辑问题时的推理能力实现了显著飞跃。IT之家援引博文介绍,在被誉为“业内最难 AI 基准测试之一”的 Humanity’s Last Exam 中,该模式取得了 41% 的高分,确立了新的行业标杆。

同时,在 GPQA Diamond 科学知识测试中,其得分高达 93.8%;在包含代码执行的 ARC-AGI-2 严苛测试中,也拿下了 45.1% 的成绩,均展现出业内顶尖(State-of-the-art)的性能水平。


Deep Think 模式之所以能取得如此突破,核心在于运用了先进的并行推理技术(Advanced Parallel Reasoning),让模型能够同时探索多种假设路径以寻找最优解。

值得注意的是,该模型的变体此前已在国际数学奥林匹克竞赛(IMO)和国际大学生程序设计竞赛(ICPC)世界总决赛中达到了“金牌标准”。特别是在 IMO 场景下,模型需在无法访问互联网或工具的情况下,于两个 4.5 小时的考试时段内完成解题并撰写自然语言证明。

谷歌此次公测被视为对竞争对手的有力回击。OpenAI 曾在今年 7 月声称其实验性推理大模型达到了数学奥赛金牌水平,但截至目前该模型仍未向公众开放。

随着谷歌率先将达到 IMO 金牌标准的模型推向大众市场,行业普遍预测,这一举动或将迫使 OpenAI 加快同类产品的发布节奏,大模型领域的“推理能力之战”将进一步升级。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。