当前位置: 首页 » 资讯 » 新科技 » 正文

清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它

IP属地 中国·北京 编辑:胡颖 新智元 时间:2026-02-13 12:09:35

新智元报道

编辑:桃子 好困

刚刚,谷歌Gemini 3 Deep Think原地进化!在Codeforces比赛中拿下全球第七,击败了人类选手。短短三个月,全方位刷爆SOTA。

猝不及防,谷歌DeepMind深夜又放大招了!

今天,Gemini 3 Deep Think重磅升级,几乎刷爆全领域的SOTA,标志着AI推理能力进入了全新维度。

离职Anthropic入职谷歌的华人学者姚顺宇参与了Gemini 3 Deep Think

这一次,在科学研究和硬核工程领域,Deep Think堪称一个「最强大脑」。

它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图,并直接将其打印出来。

谷歌VP晒出这个副项目,最终的成品是这样子的。

新版Deep Think的实力究竟有多恐怖?

在编程界,它刷出了3455 Elo的惊人分数,达到世界冠军级的水准,冲入了Codeforces比赛人类TOP 10!

也就是说,全球只有7人击败了Gemini 3 Deep Think,一年前,最强o3也仅拿下2727 Elo。

在人类最后考试(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成绩。

甚至,它在一夜之间让最难的ARC-AGI-2基准直接饱和,以84.6%新SOTA一骑绝尘。

左右滑动查看

与Gemini 3 Pro相比,Deep Think实现了全方位反超,并将Claude Opus 4.6、GTP-5.2直接踩在了脚下。

更令人震撼的是,Gemini 3 Deep Think的实战表现。

罗格斯大学数学家Lisa Carbone在研究时,让它审查一篇高深的物理数学论文。

结果,Deep Think竟发现了一个连人类同行评审,都遗漏的细微逻辑漏洞。

Gemini 3 Deep Think这波史诗级进化,又让某些人睡不着了。

目前,Google AI Ultra订阅用户即可在Gemini中体验新版Deep Think。同时,首次通过API向部分研究人员、工程师和企业开放。

实力刷爆SOTA,奥赛金牌大满贯

去年,Deep Think专门版成功解决了推理领域最艰巨的任务,在数学和编程世界锦标赛中夺下金牌。

就在昨天,谷歌DeeoMind还做了一个预热。

背靠初代Deep Think的「AI数学家」Aletheia可以独立撰写论文,证明了「Erdős猜想」中多个难题。

不仅如此,Deep Think直接推翻了十年猜想,一举攻克18大研究瓶颈。

而现在,迭代后的Deep Think已在多项高难度的基准测试中刷新SOTA:

人类最后的考试(HLE):设定了新标杆,在不使用工具的情况下准确率达48.4%;

ARC-AGI-2:达到了前所未有的84.6%,并获得ARC奖项基金会的验证;

算法竞赛平台Codeforces:Elo评分达到了惊人的3455分;

2025 IMO:达到金牌水平。

除了数学和算法竞赛,Gemini 3 Deep Think现在在化学和物理等广泛的科学领域也表现优异。

在2025年国际物理奥林匹克和化学奥林匹克的笔试部分,新版Deep Think同样具备了金牌实力。

此外,它在高级理论物理方面也游刃有余,在CMT-Benchmark测试中取得了50.5%的成绩。

另外,Gemini 3 Deep Think在ARC-AGI-1上,直接顶到头了。

官方演示中,Gemini 3 Deep Think可以根据论文,为「时空循环视频Transformer」架构创建一个的视化方案。

Deep Think杀入科研,十倍加速

除了顶尖的性能表现,Deep Think还突破了智能边界,能够解决科学、研究和工程领域的现代难题。

它不仅能帮助科研人员解读复杂数据,还能辅助工程师通过代码对物理系统建模。

在早期测试中,许多科学家在科研工作流中,显著提升了研究产出质量。

在杜克大学,Wang Lab用Deep Think优化了复杂晶体生长的制造方法,以用于潜在的半导体材料发现。

令人意想不到,Deep Think成功设计出了一种生长大于100 μm薄膜的配方,达到了以前方法难以实现的精确目标。

谷歌平台与设备部门的研发主管Anupam Pathak表示——

我不是CAD设计师,但有了Deep Think,可以直接将草图变成可3D打印的实物。

它会分析绘图,对复杂形状进行建模,并生成3D打印所需的模型文件,让物理零部件建模加速十倍。

只需发送一张图片、一个提示词,它就能够深入思考,便可以提供几个之前从自己未想过的全新设计方案。

Deep Think将深厚的科学知识与实用的工程能力相结合,超越了抽象理论,真正开始推动实际应用。

网友惊艳实测,物理模拟太强

在实测中,Gemini 3 Deep Think展现出超强的物理模拟能力。

它可以模拟光线追踪,在浏览器中就可以实现。

并且还可以在单个HTML文件中,构建出一个完整的Three.js场景,渲染出博物馆中古典油画难以区分的全3D室内房间。

Simon Willison用Gemini 3 Deep Think画了一张鹈鹕骑自行车的SVG矢量图,效果非常惊艳。

他表示,这是自己目前见过最棒的一版了。

既然在处理那条基础的「生成一张鹈鹕骑自行车的SVG」指令时表现得这么出色,Simon决定加大难度,试个更有挑战性的版本:

生成一张加州褐鹈鹕骑自行车的SVG图像。自行车必须要有辐条,车架形状要准确。鹈鹕必须具备其标志性的大喉囊,且要有清晰的羽毛细节。必须能清楚地看出鹈鹕正在蹬车。图像需要展示加州褐鹈鹕完整的繁殖羽特征。

结果如下:

这一次,谷歌让AI真正渗透进了科研工作的「最后一公里」:审阅论文、工业设计、实验优化,无所不包。

当AI能够揪出连人类审稿人都忽略的逻辑漏洞时,「辅助工具」这四个字显然已经配不上它了。

如今,压力球抛回给了OpenAI。

面对谷歌这记直击痛点的「深思」回击,奥特曼的下一张王牌,必须足够震撼。

参考资料:

https://x.com/GoogleDeepMind/status/2021981512925585703

https://x.com/GoogleDeepMind/status/2021981510400709092

https://x.com/kimmonismus/status/2021983169478533148

标签: 物理 自行车 鹈鹕 谷歌 工程 领域 金牌 奥林匹克 姚顺宇 数学 编程 平台 世界 逻辑 漏洞 化学 形状 成品 加州 图像 博物馆 立功 清华 建模 传奇 工程师 油画 古典 论文 视化 科学

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。