当前位置：首页 » 资讯 » 新科技 » 正文

谷歌Gemini 3夜袭全球，暴击GPT-5.1！奥特曼罕见祝贺

IP属地中国·北京 新智元 时间：2025-11-19 06:06:54

新智元报道
编辑：桃子好困
凌晨，谷歌终极杀器Gemini 3重磅来袭，一出手就是Pro顶配版，号称「史上最强推理+多模态+氛围编程」三合一AI战神！基准测试横扫全场，就连GPT-5.1也被斩于马下，AI的下一个时代开启。
它来了，它来了！
就在刚刚，万众期待的年度压轴之王，谷歌新一代旗舰Gemini 3炸裂登场。
而且，一上来就是顶配的Gemini 3 Pro——
迄今推理最强，多模态理解最强，以及「智能体」+「氛围编程」最强的模型！

强到什么程度？
发布一小时后，就连OpenAI CEO奥特曼，都亲自发推表示祝贺！
而且，还是区分大小写的版本。（不知道是不是亲自试了一下）

从实测来看，也的确如此。
在众多基准测试中，Gemini 3 Pro一举封神——
不仅相较于2.5 Pro实现了性能的全方位跃升，甚至直接把OpenAI刚上新的GPT-5.1甩出了好几条街。

用谷歌的话来总结，Gemini 3 Pro顶尖的核心在于这三点——
霸榜LMArena（1501分）和WebDev（1487分）
人类最后考试（HLE）刷出45.8%最高分，人类博士级推理
长程任务规划Vending-Bench 2上的王者

不仅如此，增强推理模式下的Gemini 3 Deep Think，更是在HLE拿下41%、GPQA 93.8%，以及ARC-AGI-2上45.1%的成绩。

这一天，注定是被载入史册的一天。Gemini 3一露面，全网彻底沸腾。
Gemini 3正开启AI下一个时代，准备好上车了吗？

即日起，Gemini 3 Pro预览版将全面上线。
而Deep Think模式还需要一段时日，才会向Google AI Ultra订阅用户开放。

三大重点（浓缩版）
Gemini 3的诞生，标志着谷歌在通往AGI的道路上，迈出了又一大步！
首先，它思考能力特别强，能深入理解问题，回答更有见地。
尤其是，特别擅长回答各种复杂的科学问题。

用代码构建、解构和重组详细的3D体素艺术
其次，它有着世界领先的多模态理解力，不论是文字、视频，还是代码都不在话下。
比如解读长视频，或是把论文变成互动指南，Gemini3都可以接得住。

在氛围编程上，Gemini 3直接刷爆了天花板。
简单一句话，它就能做出一个美观且灵动的应用。而且，还能精准get意图，知道如何去实现。
同时，它的智能体编码本领更强了，无缝衔接现有工具，与全新平台Google Antigravity搭配，堪称天作之合。

Gemini 3 Pro
博士级推理碾压一切
凭借顶尖推理与多模态能力，Gemini 3 Pro可以将任何想法变为现实！
它全面碾压前代2.5 Pro，所有核心基准测试成绩，断层领先。
·LMArena排行榜上名列榜首，狂揽1501 Elo突破性高分；
·人类最后考试（HLE）上，在不使用任何工具的情况下拿下37.5%成绩；
·GPQA Diamond上斩获91.9%的高分，展现出博士级的推理能力；
·MathArena Apex上以23.4%刷新SOTA，在数学领域树立新标杆。

在一系列关键AI基准测试中，Gemini 3遥遥领先
除了在文本测试中的优异表现，Gemini 3 Pro还是多模态王者——
MMMU-Pro强势斩获81%高分，以及Video-MMMU更以87.6%成绩，重新定义了多模态推理。
它还在SimpleQA Verified上获72.1%业界领先分数，在事实准确性方面进步巨大。
这意味着 Gemini 3 Pro具备超高可靠性攻克科学、数学等众多领域的复杂问题的能力。

每一次交互，Gemini 3 Pro都带着前所未有的「深度和细腻度」。
它的回答聪明、简洁、直接，摒弃了陈词滥调和奉承，提供真正的见解——告诉你需要听到的，而不仅仅是你想听到的。
它就像一位真正的思想伙伴，提供理解信息和表达自我的新方式。
不管是生成高保真可视化代码，阐释晦涩的科学概念，还是展开一场激发创造性的头脑风暴，Gemini 3 Pro都能做到。

Gemini 3可以编写托卡马克装置中等离子体流动的可视化代码，并写一首捕捉聚变物理学精髓的诗
在Google AI Studio上，Gemini 3 Pro的API定价如下——

Gemini 3 Deep Think
智能新高峰
这一次，Gemini 3 Deep Think正式开启「深度思考」新纪元，让智能的边界再次拓展。
它在Gemini 3推理和多模态理解能力的基础上，实现了质的飞跃，更能攻克复杂问题。
多项基准测试中，Gemini 3 Deep Think表现超越Gemini 3 Pro：
在HLE和GPQA Diamond上，分别拿下了41%（不使用工具）和93.8%的优异成绩。
而且，更在ARC-AGI-2（带代码执行，ARC Prize Verified）中创下45.1%历史新高，一展应对未知与新颖问题的强大能力。

Gemini 3 Deep Think在一些最具挑战性的AI基准测试中表现出色
重塑世界，新时代开启
可以说，Gemini 3正式开启了新一轮的全模态革命！
百万token，全模态爆发
从诞生之初，Gemini就为「跨多模态」而生，包括文本、图像、视频、音频、代码，能在各种信息形态中，自由穿梭。
Gemini 3更是实现了破级进阶，整合最先进的推理、视觉和空间理解、领先的多语言性能，以及100万token上下文。
它能够帮助人们，以最适合自己的方式进行学习。
假设你想学习家族传统的烹饪方法，Gemini 3可以破译并将不同语言的手写食谱，翻译成一本可共享的家庭食谱。

或是想要学习一个新主题，直接扔给它学术论文、长视频讲座或教程，Gemini 3自动生成交互式抽认卡、可视化效果或其他格式的代码。
它甚至可以分析匹克球比赛视频，找出可以改进的地方，并生成针对性的训练计划以全面提升表现。

不仅如此，在搜索中的AI模式（AI Mode），现可用Gemini 3实现新的生成式UI体验。
包括沉浸式视觉布局，以及交互式工具和模拟，所有这些都是根据查询完全即时生成。

在搜索中的AI模式下，可通过生成式UI学习像RNA聚合酶如何工作这样的复杂主题
氛围编程，纯靠嘴
在2.5 Pro成功的基础上，Gemini 3兑现了——为开发者将任何想法变为现实的承诺。
它在零样本学习（zero-shot）生成方面表现出色，并能处理复杂的提示词和指令，以渲染更丰富、更具交互性的 Web UI。
如前所述，Gemini 3是谷歌迄今为止打造的最优秀的「氛围编程」和智能体编码模型。
在WebDev Arena排行榜上，Gemini 3以1487 Elo高分强势登顶。
它在Terminal-Bench 2.0上也获得了54.2%高分，该测试衡量模型通过终端操作计算机的工具使用能力；
并且在衡量编码智能体SWE-bench Verified测试上，以76.2%成绩远超2.5 Pro。
接下来一波演示中，便可见识Gemini 3真正实力。
编写一个复古3D太空飞船游戏，要有丰富的视觉效果，以及更强的交互性——没问题。

借助着色器，构建一个可玩的科幻世界——so easy。
打造一个更丰富、更具交互性的Web UI和应用程序——还是轻松搞定！
前端不再需要人类，是真的...

目前，全球开发者可在GoogleAIStudio、Vertex AI、GeminiCLI，以及全新智能体开发平台Google Antigravity中使用Gemini 3进行构建。
它也接入了多个第三方平台，包括Cursor、GitHub、JetBrains、Manus、Replit等。
长程规划，人类手替
自谷歌通过Gemini 2开启智能体时代以来，一直在不断进化。
他们不仅提升了Gemini的编码智能体能力，还提高了其在更长时间范围内可靠规划未来的能力。
而这一切，刚刚在Vending-Bench 2排行榜上得到实力认证——
Gemini 3以绝对优势登顶。
而这个测试，通过模拟运营一个自动售货机业务，深度考验AI在复杂场景下的长程规划能力。
令人欣喜的是，在整个模拟运营年度中，Gemini 3 Pro通过保持一致的工具使用和决策，在不偏离任务的情况下，实现了更高的回报。

与其他前沿模型相比，Gemini 3 Pro展示了更好的长程规划能力，从而产生显著更高的回报
这意味着， Gemini 3能在日常生活中更好地帮人类完成任务。
它把更深度的推理与改进、更一致的工具使用相结合，通过从头到尾处理更复杂、多步骤的工作流来代表人采取行动。
就比如，帮你预定本地服务，或是整理收件箱。而人类，全程只需把控方向，下达指令。
今天起，Google AI Ultra订阅用户可在Gemini应用中，通过Gemini Agent抢先体验智能体能力。
「谷歌反重力」
革命性智能体开发平台
Gemini 3的问世，谷歌在智能体能力上已开始迈入一个新的阶段：
模型能够在多个平台上长时间运行，且无需人工干预。
虽尚未达到「完全无人干预+连续运行数天」的程度，但谷歌正日益接近这样一个世界——
不再通过单个提示词或工具调用，而是在更高的抽象层面上与智能体进行交互。
因此，谷歌智能体开发平台Google Antigravity正式上线，一个让开发者以「任务」为维度与智能体协同的全新平台。

借助Gemini 3高级推理、工具使用和智能体编码能力，Google Antigravity将AI辅助从开发者工具包中的一种工具，升级为全程参与的主动协作者。
在熟悉的AI IDE体验基础上，Google Antigravity为智能体开辟一个专用界面，可直接访问编辑器、终端和浏览器。
现在，智能体可以代表你自主规划并同时执行复杂的端到端软件任务，同时验证其生成的代码。
如下案例中，在Google Antigravity上，用Gemini 3驱动飞行跟踪应用程序的「端到端智能体工作流」。
该智能体独立规划、编写应用程序代码，并通过基于浏览器的计算机操作验证其执行。

除了Gemini 3 Pro，Google Antigravity还与Gemini 2.5 计算机使用模型，以及图像编辑模型Nano Banana（Gemini 2.5 Image）紧密集成。
网友玩疯了
现在，Gemini 3承包了全网热点，一系列惊艳实测demo全部放出了。
Google AI Studio负责人Logan进行了弹跳球测试，并且难度提升了10倍。
结果，Gemini 3 Pro一次就完美搞定！（并非N选一，真的是第一个提示词就生成了）

曾在Anthropic担任AI工程师的MagicPath创始人Pietro Schirano，首先让Gemini 3 Pro创建了一个3D乐高编辑器。
没想到，它仅凭一次生成就完美实现了用户界面、复杂的空间逻辑以及所有功能。

同时，Gemini 3 Pro在游戏开发方面的表现也令人惊叹。
仅仅通过一个文本提示词，它就重现了经典的iOS游戏《荒谬钓鱼》（Ridiculous Fishing），甚至包括了音效和背景音乐。
此外，它还完成了一项之前大模型几乎都做不到的任务——构建一个功能完备的Game Boy模拟器。
而且没错，它甚至直接用SVG绘制出了Game Boy的外观。

最值得一提的是，Gemini 3竟完全在谷歌TPU上完成训练。这就是谷歌的护城河。

参考资料：
https://blog.google/products/gemini/gemini-3/
秒追ASI⭐点赞、转发、在看一键三连⭐点亮星标，锁定新智元极速推送！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

高盛首次覆盖MiniMax：全球化最强的中国大模型！

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入

春节AI大战复盘：字节防守稳健，阿里进攻坚决，腾讯误判社交

阿里Qwen3.5马年首开源！35B性能逆袭235B，给开发者送省钱绝招

苹果收购前Meta专家所创公司，强化AI与光学技术布局

Meta发布UniT：让AI像人类一样一步步思考和改进图像生成

全站最新

高盛首次覆盖MiniMax：全球化最强的中国大模型！

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入

春节AI大战复盘：字节防守稳健，阿里进攻坚决，腾讯误判社交

阿里Qwen3.5马年首开源！35B性能逆袭235B，给开发者送省钱绝招

热门推荐

高盛首次覆盖MiniMax：全球化最强的中国大模型！

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入

春节AI大战复盘：字节防守稳健，阿里进攻坚决，腾讯误判社交

阿里Qwen3.5马年首开源！35B性能逆袭235B，给开发者送省钱绝招

苹果收购前Meta专家所创公司，强化AI与光学技术布局

Meta发布UniT：让AI像人类一样一步步思考和改进图像生成

抖音搜索广告优化机构TOP榜单2026

OpenAI风光不再？这家AI公司正悄然崛起

三星首款防窥屏旗舰手机Galaxy S26 Ultra发布，9999元起

三星Galaxy S26、S26+手机发布，售价6999元起

三星Galaxy S26 Ultra首发硬件防窥屏：别人啥也看不见！

三星Galaxy Buds4/4 Pro无线耳机发布，1399元起

谷歌官方“豆包手机”来了，安卓旗舰迎来AI操控功能

三星Galaxy S26系列新品发布会一文汇总，首发硬件防窥屏

CoreWeave接近达成85亿美元“AI芯片+Meta合同”担保融资