当前位置: 首页 » 资讯 » 新科技 » 正文

Google发布Gemini 3大模型,性能远超GPT-5.1,已接入Google搜索

IP属地 中国·北京 编辑:朱天宇 TechWeb 时间:2025-11-19 12:13:15

11月19日消息,Google正式发布Gemini 3大模型,该模型包含了原生多模态、推理、Agent等多种能力,性能大幅领先Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1模型。

Google DeepMind研究团队称:“Gemini 3是全球领先的多模态理解模型,更是Google迄今为止最强大的智能体(Agentic)和氛围编程(Vibe Coding)模型,能够提供更丰富的可视化效果和更深度的交互体验,而这一切都构建在最先进的推理能力之上。”

Google 和 Alphabet 首席执行官Sundar Pichai表示:“从今天起,我们将 Gemini 全面融入谷歌的产品生态。其中包括在搜索的 AI 模式(AI Mode)下的 Gemini 3,具备更复杂的推理能力和全新的动态体验。这是我们首次在产品发布当日就将 Gemini 引入搜索。此外,Gemini 3 今天也同步向 Gemini app 用户、AI Studio 和 Vertex AI 的开发者、以及我们全新的智能体开发平台 Google Antigravity 中同步推出。”

Sundar Pichai还透露,自两年前推出Gemini大模型以来,现在,每月有 20 亿用户使用 AI 概览(AI Overviews)。Gemini app 的月用户量已突破 6.5 亿,超过 70% 的 Cloud 客户使用我们的 AI,1300 万开发者在使用我们的生成模型进行构建。

对于Gemini 3 的发布,OpenAICEO萨姆•奥特曼(Sam Altman)、xAI创始人、CEO埃隆•马斯克(Elon Musk)在X上都发来点赞。奥特曼发推评价“Gemini 3看起来很不错”,马斯克转发了谷歌DeepMind CEO的推文称“Nice work”。

Gemini 3 Pro性能超GPT-5.1,Claude Sonnet 4.5

此次推出的Gemini 3包括Gemini 3 Pro 预览版、Gemini 3 Deep Think 模式。

其中,Gemini 3 Pro 预览版将集成到 Google 的全栈产品中。用户在日常生活中即可使用它来学习、构建和规划一切事务。Gemini 3 Deep Think 模式——这一增强型推理模式将 Gemini 3 的性能再次提升至全新高度,该模式首先供安全测试人员试用,预计将在未来几周内向 Google AI Ultra 订阅用户开放该功能。

Google公开的信息显示,在每个关键的 AI 基准测试中,Gemini 3 Pro 的性能均显著超越 2.5 Pro,并且也大幅领先竞争对手Anthropic的Claude Sonnet 4.5模型和OpenAI的GPT-5.1。

Gemini 3 Pro在 LMArena 排行榜上以 1501 的突破性 Elo 评分高居榜首。其在推理能力上展现出博士水平,在“人类终极考试”中(未使用任何工具的情况下得分率达 37.5%)及 GPQA Diamond 基准测试中(准确率高达 91.9%)均获得最高分。此外,它在数学领域为前沿模型树立了全新标杆,在 MathArena Apex 测试中,以 23.4% 达到了最先进水平(State-of-the-Art)。

除了文本能力,Gemini 3 Pro 在 MMMU-Pro 上取得 81% 的成绩,在 Video-MMMU 上达到 87.6%。同时,该模型在 SimpleQA Verified 基准测试中也斩获了当前最先进的 72.1% 得分,展现出其在事实准确性方面的显著进步。这意味着 Gemini 3 Pro 具备高度可靠性,能够有效解决跨越科学和数学等广泛主题的复杂问题。

在测试中,Gemini 3 Deep Think 在“人类最终考试”(Humanity’s Last Exam)中的表现(未使用工具的情况下达到 41.0%)以及在 GPQA Diamond 测试中的表现(达到 93.8%),均超越了 Gemini 3 Pro。此外,它还在 ARC-AGI -2 基准测试中取得了 45.1% 的突破性成绩(启用代码执行)。这三项测试中,Gemini 3 Deep Think表现均超越Claude Sonnet 4.5和GPT-5.1模型。

发布全新智能体开发平台Google Antigravity

Google DeepMind研究团队表示,Gemini 3 是Google迄今为止构建的最出色的氛围编程(Vibe Coding)和智能体编程(Agentic Coding)模型。

它在 WebDev Arena 排行榜上以1487 ELO 名列前茅。在 Terminal-Bench 2.0 测试中(一个测试模型通过终端操作计算机的工具使用能力)上也取得 54.2% 的好成绩;同时,在衡量编程智能体(coding agents)的 SWE-bench Verified(76.2%)基准测试中,其表现远超 2.5 Pro。

现场,Google还正式发布 Google Antigravity——全新的智能体开发平台,让开发者能够在更高层次上,以任务为导向的方式进行开发。

Google Antigravity 利用 Gemini 3 的高级推理、工具使用和智能编码能力,将 AI 辅助从开发者工具包中的工具转变为一个活跃的伙伴。尽管 Google Antigravity 的核心仍沿用熟悉的 AI 集成开发环境(IDE),但其智能体已被提升到一个专属的界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体能够代表您自主规划和执行复杂的端到端软件任务,并在此过程中自行验证代码。

除了 Gemini 3 Pro 之外,Google Antigravity 还深度整合了最新的用于浏览器控制的 Gemini 2.5 Computer Use 模型,以及图像编辑模型 Nano Banana(Gemini 2.5 Image)。

现场演示了Google Antigravity 使用 Gemini 3 来驱动航班追踪应用所需的端到端智能体工作流程。该智能体能够独立规划、编写应用程序代码,并通过基于浏览器的计算机使用来验证其执行效果。

现在,用户已经可以通过 Google AI Studio、Vertex AI、Gemini CLI 以及Google全新的智能体开发平台 Google Antigravity 中使用 Gemini 3 进行开发和构建。同时,Gemini 3也已在 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台上线。

Google 和 Alphabet 首席执行官Sundar Pichai总结Gemini的发展,他称:“Gemini 1 在原生多模态和长上下文窗口方面的突破,扩展了可处理的信息种类及其信息量。Gemini 2 则为智能体能力奠定了基础,并在推理和思考方面推动了前沿,帮助处理更复杂的任务和想法。现在,Gemini 3具备最先进的推理能力,能够理解深层次内容与细微差别——无论是感知创意中细微的线索,还是剖析复杂难题中相互交织的结构维度。Gemini 3 在理解用户请求的上下文和真实意图方面也更为出色,您只需更精简的提示就能获取所需结果。更令人惊叹的是,仅仅用了两年时间,AI 已经从单纯的文本和图像识别,发展到能够洞察语境。”(果青)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。