终于,千呼万唤之下,历经多次“预告”过后,Gemini 3 终于来了。
北京时间 11 月 19 日凌晨,Google 正式发布了其最新一代人工智能模型 Gemini 3。这款被 CEO 桑达尔·皮查伊(Sundar Pichai)称为“最智能模型”的产品,在发布前就已经在业界掀起了不小的波澜。事实上,早在10 月中旬,就有爆料称 Gemini 3 将在 10 月 22 日登场,但那次“狼来了”的传言最终没有兑现。
![]()
(Google)
到了 11 月中旬,又有敏锐的开发者在移动端 Canvas 功能中发现了端倪:尽管界面显示仍是 Gemini 2.5 Pro,但输出质量已经发生了质的飞跃,特别是在 SVG(Scalable Vector Graphics,可缩放矢量图形)生成和网页设计方面,效果远超此前版本。
直到 AI Studio 和 Vertex AI 平台上开始隐约出现 Gemini 3 的踪迹,业界才意识到,这次是真的要来了。而现在,靴子终于落地。
此刻距离 Google 首次推出 Gemini 品牌已经过去近两年。相较于早期的慌乱和匆忙,这一次,Google 显然做足了准备。Gemini 3 的发布不再是试探性的小步快跑,而是一次全面的、自信的大规模推送——这是 Google 第一次在发布当天就将最新的 Gemini 模型整合进搜索引擎。用 Google 搜索产品副总裁罗比·斯坦(Robby Stein)的话说:“这是我们第一次在搜索中同步发布最新的 Gemini 模型。”对于一家以搜索起家、拥有数十亿用户的科技巨头而言,这一决策足以说明其对于新模型的自信。
这款稀疏混合专家(sparse MoE, Mixture-of-Experts)架构模型的核心卖点可以用 Google 自己的话来概括:“我们最智能的模型, 帮助你将任何想法变为现实。”
从各项基准测试的结果来看,Gemini 3 确实配得上我们这么久的期待。在 LMArena 排行榜上,它以 1501 分的 ELO 评级登顶。在学术界用来测试 AI 系统是否具备博士级推理能力的“人类最后的考试”(Humanity's Last Exam)中,Gemini 3 在不使用任何工具的情况下达到了 37.5% 的准确率;而在考察研究生水平科学问题理解能力的 GPQA Diamond 基准测试中,它的得分更是高达 91.9%。此外,在专门考察高难度数学问题求解的 MathArena Apex 测试中,Gemini 3 取得了 23.4% 的成绩,刷新了前沿模型在这一领域的纪录。
![]()
图丨Gemini 3 的基准测试结果(Google)
多模态能力是 Gemini 系列的传统强项,而 Gemini 3 将这一优势进一步扩大。在 MMMU-Pro(大规模多学科多模态理解)测试中,Gemini 3 得分 81%,在 Video-MMMU(视频多模态理解)中更是达到 87.6%,这两项指标都显著超越了竞争对手。
在 SimpleQA Verified 这一事实准确性测试中,Gemini 3 Pro 达到 72.1%,表明其在事实准确性方面也有长足进步,这对于实际应用场景至关重要。
Google 还推出了一个更强大的变体:Gemini 3 Deep Think。这是一个增强推理模式,旨在将 Gemini 3 的性能推向更高的高度。在测试中,Deep Think 模式在 Humanity's Last Exam 中达到 41.0%(不使用工具),在 GPQA Diamond 中达到 93.8%,在 ARC-AGI-2(Abstraction and Reasoning Corpus,抽象与推理语料库)中更是创下了 45.1% 的成绩。不过,Deep Think 模式目前还不能立即使用。Google 表示,这一模式正在进行额外的安全评估,并征求安全测试员的意见,预计在未来几周内向 Google AI Ultra 订阅用户开放。
![]()
(Google)
除了这些性能的提升,Google 还特意强调了模型“性格”的转变。Gemini 3 的回应被设计得更加“聪明、简洁、直接,用真知灼见取代陈词滥调和阿谀奉承。告诉你需要听的,而不只是你想听的”。长期以来,为了追求所谓的安全与对齐,许多大模型患上了一种名为“Sycophancy”(阿谀奉承)的通病,即无底线地顺从用户的错误前提,或者给出模棱两可的废话。Gemini 系列此前在这一问题上似乎尤其明显,以至于许多网友戏称 Gemini 非常“自卑”,而 Google 这一次似乎下定决心要矫正这一点。
在具体应用场景上,谷歌着重强调了三个方向:“学习任何东西”、“构建任何东西”和“规划任何东西”。
在学习领域,依托 1 百万 token 的上下文窗口 (相当于约 75 万个单词), Gemini 3 可以处理长篇学术论文、多小时的视频讲座, 并将其转化为交互式学习材料。例如,它能够解析不同语言的手写食谱并生成可分享的家庭食谱书,可以将学术论文和视频讲座转化为交互式闪卡和可视化图表,甚至可以分析你的匹克球比赛视频,识别需要改进的地方并生成训练计划。
构建能力是 Gemini 3 最被看好的领域。在 WebDev Arena 排行榜上 1487 的 Elo 评分,在 Terminal-Bench 2.0(测试通过终端操作计算机的能力)上 54.2% 的得分,尤其是在 SWE-bench Verified 上 76.2% 的表现,都显示出这是一个在编程方面极具竞争力的模型。Google 称其为“我们打造过的最好的氛围编程(vibe coding)和智能体编程模型”。在奥赛级编程基准测试LiveCodeBench Pro 上,Gemini 3 拿下了 2439 的最高分数,比第二名 GPT-5.1-high 高了近 200 分。
LiveCodeBench Pro 团队的负责人之一、普林斯顿大学博士柴文浩也向 DeepTech 表示,Gemini 3 的进步称得上是“领先了一个代差”,“方方面面都非常强悍”。
![]()
(LiveCodeBench Pro)
为了配合 Gemini 3 的发布,Google 同时推出了一个名为 Antigravity 的全新开发平台。Antigravity 旨在让开发者从繁琐的编码细节中“悬浮”起来,在更高的任务层面操作。在这个平台上,智能体(agent)被提升到一个专门的界面,能够直接访问编辑器、终端和浏览器,自主规划和执行复杂的端到端软件任务,同时还能验证自己生成的代码。Antigravity 内置了最新的 Computer Use 模型(用于浏览器控制)和图像编辑模型 Nano Banana,构成了一个完整的智能体开发生态。
规划能力则体现在 Gemini 3 对长期任务的把控上。在 Vending-Bench 2 这个基准测试中,Gemini 3 需要经营一家模拟的自动售货机生意整整一年,在这个过程中保持一致的工具使用和决策,不偏离任务目标,最终产生更高的回报。这一过程实际上反映了现实世界中许多需要长期规划、中途调整策略的场景。对于 Google AI Ultra 订阅用户,一个名为 Gemini Agent 的新功能已经上线,可以帮助处理诸如预订本地服务、整理 Gmail 收件箱等多步骤工作流程。
![]()
(Google)
纵览目前各大厂商的模型,相比于 Claude 那样明确聚焦编程,和 GPT-5 那样强调统一架构,Gemini 3 的策略显然是求全,试图在推理、多模态、编程、长上下文等各个维度都达到顶尖水平。这种“全能选手”可能在某些特定任务上面临激烈竞争,但 Google 有一张王牌:生态整合。
这种生态优势首先体现在硬件基础设施上。Gemini 3 基于 Google 最新的 Trillium TPU(Tensor Processing Unit,张量处理单元)芯片训练,这是 Google 自研的 AI 专用处理器的第六代产品。每颗 Trillium 芯片可提供 512 TOPS(万亿次运算每秒)的 AI 算力,相比上一代 TPU v5e 性能提升了 4 倍,而能耗却降低了 67%。这种从底层硅片到上层模型的垂直整合,让 Google 能够针对自家模型特点优化硬件设计,反过来也让模型训练更加高效,这是 OpenAI 依赖英伟达 GPU、Anthropic 租用云计算资源目前所难以企及的优势。
在软件和服务层面,Gemini 3 同步登陆 Google 搜索的 AI 模式、Gemini 应用、AI Studio、Vertex AI 以及 Antigravity 平台。特别是此次更新的 AI 模式搜索,能够做到根据查询动态生成沉浸式视觉布局、交互工具和模拟器,将搜索从“寻找信息”提升到“理解信息”。当你搜索“RNA 聚合酶如何工作”时,不再是一堆静态链接,而是交互式的动画演示和可操作的模拟器——这是只有掌控搜索入口的 Google 才能做到的整合。
在发布后不久的采访中,DeepMind CEO 德米斯·哈萨比斯就表示,Gemini 3 在推理能力上实现了“显著的跨越”。但他同时强调,Google 的野心远不止于此。在通往 AGI(通用人工智能)的道路上,Google 正在“深入个性化、记忆和语境(Context)”。哈萨比斯认为,正是通过与 Gmail、日历以及整个 Google 生态系统的深度连接,AI 助手才能在 AGI 正式到来之前,就已经变得“真正不可或缺”。
参考资料:
https://blog.google/products/gemini/gemini-3/#note-from-ceo
https://x.com/rowancheung/status/1990814463428059597





京公网安备 11011402013531号