文 | 第一新声,作者 | 陈俊
继谷歌Gemini 3横空出世后,紧接着Open Ai猛虎下山,连夜推出Chatgpt5.1pro与Codax Max,让战局再起。
回望过去一年,大模型赛道其实处在一种“雷声大雨点小”的疲态期,虽然参数规模越堆越大,但在用户体验上,很难寻回 ChatGPT 初次登场时的那种震撼。行业似乎陷入了边际效应递减的怪圈,理论上模型在变强,但这种“强”越来越难以被感知。
用户开始疲惫,资本开始观望。
但Gemini3的突然袭击,可谓是重演了一次“iphone时刻”,在科技界掀起了巨大波澜。除了马斯克这位深度冲浪爱好者,连友商Open AI的CEO也表示对Gemini 3十分看好。
![]()
一时间,谷歌风头无两,几乎成为了行业讨论的主角。
作为多个大模型的深度用户而言,Gemini3解决了“谁最好用”这个难题。在此之前,如果你问哪家模型强,得到的回答往往是:“A家擅长写代码,B家擅长创意,C家逻辑好,建议你都开着。”
作为用户而言,Gemini 3的用户体验在当下大模型中找不出代餐,是一个“六边形战士”,将所有的复杂的工具矩阵统一到了一个对话框内。
对于行业而言,Gemini 3终结了单一唯独的文本内卷,引导大模型进入多模态的竞争,用体验上的降维打击,强行将行业拉入了多模态与 Agent(智能体)的竞争新纪元。
也许是这份“全网好评”让Open AI倍感压力,Open AI紧接着连夜发布了Chatgpt 5.1pro和Chatgpt 5.1-Codx-Max。
Open Ai的这轮更新,既是被逼出来的节奏,也是在向外界宣告:顶级对决,战线已经从模型本体扩展到体验与生态。
Gemini 3,用户体验远胜参数
Gemini 3大受好评的原因,不仅是在参数上秀了一把肌肉,更重要的是回归用户思维,在用户体验上秀了一把智商。
话不多说,我们直接看Gemini 3最硬的几个指标。
LMArena作为大模型界最被认可的盲测擂台,以公平、公开著称,所有模型匿名对打,题目随机生成。Gemini 3 pro在这里拿到了1501 Elo的好成绩,直接冲进了顶级梯队,得分位列LMArena大模型竞技场第一。
![]()
Gemini 3 在一系列关键人工智能基准测试中均处于领先水平。
看各项指标对比也能看出来,这个分数不是单项的好,而是整体均衡的夸张。在编程、创意、数学、对话等各项维度上,它几乎没有短板。
另外,Gemini 3 的深度思考模式,将智能边界再次往前推了一大截。在推理能力与多模态理解上,它不是正常迭代,而是出现了一个明显的“台阶式跃迁”,能够处理比以往更复杂、更多变的问题。
在各项测试中,Gemini 3 Deep Think交出的成绩也十分亮眼。比如在人类终极测试中,(无工具条件下得分 41.0%)和 GPQA Diamond(得分 93.8%)上,它的表现不仅全面超过 Gemini 3 Pro——甚至把测试难度里最依赖真实推理能力的部分,直接拔高了一层。
此外,它在ARC-AGI-2(代码执行,经过 ARC Prize 官方验证)上取得了前所未有的 45.1%的成绩。这一项本质在测试 AI 如何面对“没有标准答案、需要从零拆解问题”的挑战,而 Gemini 3 展现出的能力说明,它不仅能“解决题”,还能探索新问题的结构。
![]()
Gemini 3 的deep think模式在一些具有挑战性的AI 基准测试中的表现
最能说明问题的,是它在Vending-Bench 2 排行榜上的表现。
Vending-Bench 2 测试的是长期规划:让模型运营一个模拟的自动售货机业务,贯穿整整一年的补货、定价、决策、工具调用,考验是否能在长时间跨度内保持决策一致性,不偏题、不跑偏、不陷入混乱。
在这项测试中,Gemini 3 Pro 一整年都保持着稳定清晰的策略路径,在不偏离任务目标的前提下持续提高收益。
![]()
与其他前沿模型相比,Gemini 3 Pro展现出更好的长期规划能力,能够产生更高的回报
Chatgpt 5.1pro带来的升级,较为“低调”,截至目前官方博客中都并未有具体介绍,只在更新的博客中有两段介绍。
![]()
也许是因为Open AI只把ChatGPT pro当附属的升级,实际体验下褒贬不一。据HyperWrite AI的CEO发布的体验长文来看,虽然功能强大但界面设计有所欠佳。
Antigravity押宝深度协助体验,Codex-Max注重长时任务
除了Gemini3以外,谷歌还交出了另一份答卷,发布了一个叫 Antigravity 的开发工具(IDE / agent 平台),用 Gemini 3 Pro 来驱动多个 agent 协作。
如果说Deep Think 是大脑,那么谷歌这次推出的 Antigravity,就是 AI 的“双手”。
对于程序员而言,它类似于Claude Code 或 OpenAI Codex:可以访问电脑、执行代码、自动生成程序,属于专业的编程智能体。
举个例子,一个用户只给了一个极其简单的指令:“在《我的世界》里建一个AI绘画程序。”
它就直接在游戏环境里,用方块和游戏逻辑,从零开始搭建、训练并运行了一个可以生成图片的AI模型,并用游戏中的3D方块墙实时展示了AI“画图”的全过程。
在交互层面上,Gemini3也发生了改变,整个应用界面和呈现方式焕然一新,更注重结构化布局和可视化内容。另外,Gemini3也更加人性化了,针对不同人群,系统会有不同的生成界面设计。
![]()
比如,一位开发者从一个空白屏幕开始,仅用了几分钟时间,就通过一个详细的提示词,让Gemini 直接生成了一个界面清爽、设计精美的 Landing Page,并且该页面完全具备响应式设计。
Gemini3的升级,也正好对应了 AI 心智从文本世界到物理世界的“三维结构”进化。
前阵子李飞飞发长文,强调空间智能(Spatial Intelligence)是 AI 的终极方向。她认为,真正的智能不仅仅是理解语言,更是要理解物理世界。
在她看来,空间智能包含三个方面:感知层、认知层、行动层面。只有三者深度闭环,才有可能进入空间智能领域。
在我的理解看来,谷歌的Gemini3的升级其实就是在感知和认知层上的一大突破,相比其他的模型而言,Gemini3的一大突破在于,开始从认知层突破,比如会尝试以人类的思维分析一些常见的事物。比如,“如果这里掉一颗螺丝,桌子可能卡住”等等常识问题。
我们从实际体验上也可以看到Gemini 3 在规划能力上有非常强的自主性。它能自己判断下一步该做什么,也能判断需要在哪些关键节点征求你的同意。
为了测试Antigravity,一位专攻创业及人工智能的沃顿商学院的教授,给它授权访问了电脑中一个存满杂乱AI相关文章的目录,只提了一个模糊需求:“我需要一个网站,把我所有关于 AI 的预测列出来,再上网查一下哪些预测验证了,哪些没验证。”
之后发生的过程非常顺畅:它自动读取了全部文件;自动调用代码;自动规划网站结构,并在关键步骤主动确认了需求细节。
下面的截图就是它第一次回过来问的问题——你能明显感觉到,它对需求的理解准确清晰,几乎不用再重复任何上下文。只做了几处小修改,就让它继续运行,结果直接生成了一个可编辑、可上线的方案。
![]()
这就是Gemini 3 作为智能体的新质感,不是你告诉我一步我走一步,而是“我已经理解你的目标了,我来拆分路径,你只负责确认方向”。
Chatgpt 5.1-Codex-Max的特点则是,能够利用内建的压缩功能持续处理长时间任务。
比如,它在实际工程任务中的表现已经优于GPT-5.1-Codex,并且是首个专门训练能在 Windows 环境下运行的 Codex 模型。在使用 PowerShell 时更是得心应手,在 Windows 机器上的协作能力也比以往更强。
![]()
此次,它们还把代理模式带上了Windows。Codex 能在你的工作文件夹里读文件、写文件、跑指令,关键是不再需要你那一遍遍点头确认,背后是一套新的实验性 Windows 沙箱,会自动限制文件系统和网络的访问。
![]()
再看看表现。在SWE-Bench Verified 的中等难度测试里,它不仅跑赢了 GPT-5.1-Codex,还把思考标记压缩了大约 30%。对于深度、对延迟不敏感的工作,新增了超高推理模式。
文本之争落幕,全模态战争开幕
看完Gemini 3 性能和ChatGPT 5.1 pro,从商业和市场竞争的角度来看,我们可以正式宣告:文本之争落幕,多模态战争正式打响。
在这种新格局下,市场对大模型的衡量标准也趋于理性,相比一味追求性能跑分,市场情绪的更加审慎,商业落地和分发能力成了更大的考量。
谷歌“B/C端两手抓”的战略意图十分明显。
一方面,谷歌利用Gemini 3的性能优势,叠加极致的用户体验,快速打开用户心智,并建立起不可替代的生态依赖。
为此,谷歌将Gemini 3快速部署至核心产品(Google 搜索、Gemini 应用等)。其中,Gemini 3在 AI 搜索中的回答不再是传统的链接列表,而是更结构化、可视化的交互网页。这种直观的、高度集成化的体验,让用户迅速习惯并依赖于谷歌的 AI 生态。
这种分发能力+强模型的组合拳,也会对竞争对手构成了巨大压力。投资策略师Mike O’Rourke 指出:谷歌把 Gemini 3 部署到其核心产品(比如Google搜索、Workspace)里,这种组合可能对 OpenAI 等竞争对手构成很大压力。
另一方面,企业级运用是快速抢占B 端市场的关键腹地,推出 Vertex AI 和 Antigravity 平台,提供模型定制、安全部署和系统级集成的 PaaS/SaaS 解决方案。
当前市场上,竞争对手也在采取类似的策略抢占B端市场,像AI企业 Anthropic 前不久就和IBM合作,把它们旗下的大模型Claude整合进 IBM 的软件体系。
这意味着B 端市场的竞争已经从单一模型性能,转向了“模型+平台+生态”的系统整合能力。更重要的是,这暴露了现有竞争格局的结构性弱点。比如百度文心一言等模型虽然也在强调多模态,但目前的行业现状大多是“拼凑式”,用一个模型看图,用另一个模型写字。
所以打通生态闭环已成为科技巨头们不约而同的战略方向。以谷歌、微软为代表的巨头们,凭借主营业务的强大现金流,可以持续为高成本的大模型研发进行投入,而生态的深度集成则能够迅速将技术优势转化为高粘性的客户依赖和稳固的商业收入。
OpenAI 正是吃了缺乏生态的亏,导致B端客户流失。比如生态缺失使其商业模式面临结构性挑战,其营收来源对ChatGPT Plus 订阅和 API 接口授权表现出显著的过度依赖,带来了明显的商业风险和后劲不足。
在B端,缺乏自有平台使其难以主导企业的核心工作流,削弱了其技术势能向市场份额转化的效率。所以可以看到,Open AI短短两年间市场份额快速下滑,仅一年半,从2023年50%市占率降至25%。(企业级市场)
![]()
企业语言大模型API市场份额
早期许多企业使用OpenAI 的 API 来构建自己的 AI 应用。然而随着谷歌 Gemini、Anthropic Claud等竞品性能追平甚至超越,企业开始审慎评估成本。如果能用更便宜、更稳定或更易集成的模型达到同样效果,客户就会转向其他供应商,削弱了 OpenAI 的议价能力。
由于OpenAI 缺乏自己的云基础设施和企业软件生态,只能作为“功能”被集成。这使得企业在进行大规模、深度定制的 AI 部署时,倾向于选择谷歌或微软这些提供系统级解决方案的平台,导致 OpenAI 在抢占企业级市场的深度和广度上受限。
这种单一的收入结构,在全模态集成战中,使其难以像谷歌、微软一样,将技术优势快速、高效地转化为无处不在的生态收入。
综上,无论是用户体验的跃迁,还是生态层面的全线压制,Gemini 3的出现都让大模型竞争进入了一个新的叙事周期。
技术路线在重排,商业模式在重塑,行业的主导权也在悄然转移。而当一条技术曲线推进到这个临界点时,讨论性能本身已不够。





京公网安备 11011402013531号