当前位置：首页 » 资讯 » 新科技 » 正文

刚刚Gemini上新模型，全球只有7人比它会编程，谷歌姚顺宇参与

IP属地中国·北京 编辑：沈瑾瑜机器之心Pro 时间：2026-02-13 16:11:18

编辑｜泽南
从此以后，AI 不再是工具，要尊称为「硅基博学家」了。
北京时间周五凌晨，谷歌发布了 Gemini 3 Deep Think 的重大升级，作为专门用于复杂任务的推理模式，Deep Think 代表 AI 前沿的最强智能水平，旨在解决科学、工程领域的诸多挑战。
去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇（Shunyu Yao）也是这次 Deep Think 新模型的参与者。
去年，谷歌展示了专门开发的 Deep Think 版本能够成功应对一些最棘手的推理挑战，并在数学和编程世界锦标赛上取得了金牌成绩。最近，Deep Think 又使专门开发的智能体能够进行研究级别的数学探索。
更新后的深度思考模式继续拓展智能的边界，在最严格的学术基准测试中取得了新的高度，其中包括：
在「人类的最后考试」（一项旨在测试现代前沿模型极限的基准测试）中，该模型取得了新的 SOTA（48.4%，不使用任何工具）。在 ARC-AGI-2 测试中取得了前所未有的 84.6% 的成绩，并经 ARC Prize 基金会验证。在 Codeforces 上取得了惊人的 3455 Elo 分数，Codeforces 是一个包含各种竞技编程挑战的基准测试平台。在 2025 年国际数学奥林匹克竞赛中取得金牌水平。
新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成绩是 96.0%，每任务花费 7.17 美元；在 ARC-AGI-2 上已经达到了 84.6% 的分数，每任务成本为 13.62 美元。
大约 14 个月前，OpenAI 模型 o3-preview 的「高计算」版本在 ARC-AGI-1 测试中达到了约 88% 的分数，每个任务的成本约为 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任务成本仅为 7.17 美元，成本降低了约 280 至 420 倍。
这意味着我们现在需要再次为 AI 准备更复杂的测试题了。
除了数学和编程竞赛之外，Gemini 3 Deep Think 现在在化学和物理等广泛的科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力，在 CMT-Benchmark 测试中取得了 50.5% 的分数。
还有这个在 Codeforces 上获得的 3455 分，Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分，排名第 175。
地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。
对于 AI 和整个科技领域而言，这是一个以往难以想象的成果。
谷歌与科学家和研究人员紧密合作，对 Gemini 3 Deep Think 进行了升级。Deep Think 将深厚的科学知识与日常工程实践相结合，超越了抽象理论，推动了实际应用。
借助更新后的 Deep Think，你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸，对复杂形状进行建模，并生成用于 3D 打印的实体文件。
谷歌展示了一些早期测试用户使用最新版 Deep Think 的成果：
罗格斯大学的数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构，以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据，她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷，而这个缺陷此前在人工同行评审中均未被发现。
在杜克大学，Haozhe "Harry" Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法，以期发现新的半导体材料。Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺，达到了以往方法难以企及的精确目标。
或许随着更多人的使用，我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。
全新 Deep Think 现已在 Gemini 应用中上线，目前 Google AI Ultra 订阅用户可以使用。此外，谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。
参考内容：
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
https://x.com/shaneguML/status/2021999801911718029

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

游戏直播不太行了，但虎牙突然又行了？

紧盯三个关键领域，强化人工智能科技伦理治理

不拼流量拼品质电商发展新规出炉

虎嗅【作·嗅之星】周榜第307～308期

力箭二号运载火箭首飞成功将探索新型天地运输模式

做知识分享的博主，用微信公众号发布软件打理内容，真的能轻松不少

全站最新

游戏直播不太行了，但虎牙突然又行了？

紧盯三个关键领域，强化人工智能科技伦理治理

不拼流量拼品质电商发展新规出炉

虎嗅【作·嗅之星】周榜第307～308期

热门推荐

游戏直播不太行了，但虎牙突然又行了？

紧盯三个关键领域，强化人工智能科技伦理治理

不拼流量拼品质电商发展新规出炉

虎嗅【作·嗅之星】周榜第307～308期

力箭二号运载火箭首飞成功将探索新型天地运输模式

美“阿耳忒弥斯2号”载人绕月任务打破人类距离地球最远飞行纪录

做知识分享的博主，用微信公众号发布软件打理内容，真的能轻松不少

六部门定调“人工智能+电商”：头部企业挑大梁，大模型重塑消费新体验

腾视科技AI大模型应用：提效、破局与落地，重塑智能新生态

AI应用加速度，市司法局举办WPS政务大模型使用培训

2026年微信小程序商城优选公司：哪家更值得信赖？

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

说说有实力的百度AI搜索服务商、Chat GPT AI搜索及抖音AI搜索合法公司推荐

优推信息：老牌百度关键词排名优化，百家号SEO排名激活沉默用户

位置限定分组小程序：基于地理围栏的精准人员管理