当前位置: 首页 » 资讯 » 新科技 » 正文

拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力【101直播】

IP属地 中国·北京 硅谷101 时间:2025-11-24 12:11:05

撰稿:刘一鸣

毫无疑问,Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时,谷歌凭借其深厚的基建底蕴与全模态(Native Multimodal)路线,如今已从“追赶者”变成了“领跑者”。

此次Gemini 3不仅在多模态能力上实现了新的飞跃,更被视为谷歌对Scaling Law最极致的一次执行。

硅谷101在11月20日举办了一场直播,邀请了四位处于AI研发与应用最前线的嘉宾:

田渊栋,前meta FAIR研究总监、AI科学家

陈羽北,加州大学戴维斯分校助理教授、Aizip联合创始人

Gavin Wang,前meta AI工程师、负责Llama 3后训练及多模态推理

Nathan Wang,资深AI开发者、硅谷101特约研究员



我们试图透过Gemini 3的发布,试图回答关于AI未来的几个关键问题:Gemini 3到底强在哪里?谷歌究竟做对了什么?全球大模型竞争格局将如何改变?LLM的未来走向,以及在LLM之外,最前沿的AI实验室正在关注什么?

以下是我们直播中的嘉宾浓缩观点,如果想收看完整直播内容,可以关注我们的YouTube和B站回放。

01

体验实测Gemini 3到底强在哪里?

在Gemini 3发布后的48小时内,各大榜单被迅速刷新。不同于以往模型仅在单一维度(如代码或文本)上的提升,Gemini 3被认为是真正意义上的“全模态原生”模型。对于使用者而言,这种技术参数上的提升转化为怎样的实际体感?


LM Arena

陈茜:各位这两天都在高强度测试Gemini 3,它真的如排行榜那样霸榜吗?大家能不能举例讲讲,它到底好在哪里?

Nathan Wang:我这两天大概集中使用了三个主要产品:Gemini主App、针对开发者的Google AntiGravity,以及今天刚发布的Nano Banana Pro。

说实话,AntiGravity给我感觉非常像是一个Agentic时代的IDE(集成开发环境)。它和Cursor或者Claude Code不太一样的地方在于,它把界面分成了 "Manager View"(经理视角) 和 "Editor View"(编辑视角)。

以前我们在Cursor里,虽然AI帮我们写代码,但感觉还是“我”在写。但在AntiGravity里,Manager View让你感觉你是坐在那里的经理,底下有8到10个Agent小弟在干活。你可以看着它们分工,有的在写程序,有的在Run Unit Test(单元测试)。

最惊艳的是它结合了Browser Use的功能。比如我写了一个前端网页,它有一个叫Screenshot Pro的功能,跑分非常高。它可以直接调用Chrome浏览器打开那个网页,“看”着屏幕去测试。如果你让它上传一个文件、点击一个按钮,它能像人一样去操作。这意味着测试加上开发完全自动化了,变成了一体式的开发体验。

另外,Nano Banana Pro在生成幻灯片这个点上解决了我很大的痛点。以前我让AI做PPT,比如“解释一下Gemini从1.0到3.0的发展路线”,它往往逻辑链是断的。但这次我试了一下,它不仅能把逻辑理顺,还能生成非常复杂的图表。我觉得市面上那些做Slides(幻灯片)的软件可能都要被它取代了。


田渊栋

前meta FAIR研究总监、AI科学家

田渊栋:我一般的习惯是,新模型出来先看它能不能“续写小说”。这是我个人的一个Benchmark,因为全世界除了我也没几个人这么测,所以它肯定不会Overfitting(过拟合),这比较客观。

在一两年前,模型写小说基本上是“公文风”,不管你给它什么开头,它写出来都是那种官方口吻,完全脱离语境。到了Gemini 2.5的时候,我发现它文笔变好了。比如我给它一个废墟的场景,它会描写得很细致:墙壁倒塌的样子、环境萧索的氛围,像个文科生写的,但情节上平铺直叙,没什么抓人的地方。

但这次Gemini 3让我有点惊喜。它不仅文笔好,它开始懂得“反转”了。它设计的情节互动非常有意思,甚至让我觉得:“咦,这个点子不错,也许我可以存下来用到我自己的小说里。”这是第一次我感觉到AI在情节构思上给了我启发,而不仅仅是词藻堆砌。它似乎对作者的深层动机有了理解。

不过,在科研Brain storming(头脑风暴)上,它还是那个老样子。怎么形容呢?它就像一个刚刚入学的、博闻强记的博士生。 你问它什么它都知道,能跳出很多新名词、新数学工具。你会觉得“哇,这个我没见过,很棒”。但如果你想跟它深入探讨一个问题的本质,或者让它判断哪个方向更有前途,它就做不到了。它缺乏那种只有资深人类研究员才有的直觉和深层思考。所以它依然是一个顶级的“做题家”,但在创造性思维上,暂时还没看到本质突破。

Gavin Wang :我首先感叹一下,Google的“大厂之力”真是恐怖如斯,生态系统太完整了。技术层面,我最关注的是ARC-AGI-2 Benchmark。这个测试很有意思,它不是考大数据记忆,而是考Few-shot Learning(少样本学习)甚至是元学习。它的创始人认为,那种靠背数据的不是智能,真正的智能是看一两个例子就能迅速提取出Pattern(模式)。

之前大家在这个榜单上都是个位数或者百分之十几,Gemini 3一下子达到了百分之三十几,这是一个质的飞跃。我认为这归功于它的Multimodal Reasoning(多模态推理)。

以前的Chain of Thoughts(思维链),模型是在那里自言自语,是纯语言维度的单模态推进。但Gemini 3是Model Native的,它把视觉、代码、语言的数据全部Mesh up together(混合在一起)做预训练。所以它在推理的时候,可能是一边看着屏幕上的图像,一边在语言层面做逻辑推演。这种跨模态的化学反应,打开了很多新机会的大门。


陈羽北

加州大学戴维斯分校助理教授、Aizip联合创始人

陈羽北:我这两天太忙还没自己跑,但我收集了我们团队不同小组的一手反馈,这里面有一些很有意思的Negative Feedback(负面反馈)。

首先是Vision组的反馈。他们在做一些内部Benchmark测试时发现,Gemini 3在Real-world Visual Understanding(真实世界视觉理解)上性能反而下降了。这听起来很反直觉对吧?

具体来说,就是当涉及到安防摄像头、门铃这种真实场景,去分析用户行为、潜在风险事件的时候,它的表现不如上一代。他们去查了Gemini 3的技术报告,发现报告里真正涉及到Real-world Visual Understanding的benchmark只有一个,而且并没有覆盖这种复杂场景。

这其实暴露了一个行业通病:公榜benchmark和实际落地场景之间存在巨大的Gap。 如果大家都为了刷榜去优化模型,那在实际产品中的性能可能会走偏。

另外,Coding组的学生也跟我说,在做Scientific Writing(科学写作)和辅助编程时,他们反而觉得Gemini 2.5更顺手。Gemini 3虽然Reasoning的长度增加了2到3倍,但在处理需要反复多跳(Multi-hop)搜索、整合二十年财报这种极度复杂的任务时,似乎还是不如OpenAI的GPT-5 Pro稳定。当然,这可能是早期版本大家还没摸透prompt的原因。


02

谷歌技术秘密

是“Deep Thinking”还是“超能力”?

谷歌从落后到追平甚至反超,Gemini项目负责人曾透露秘密在于“改进了预训练和后训练”。这句看似官方的回答背后,隐藏着谷歌怎样的技术路线图?是算法本身的胜利,还是堆算力的暴力美学?


谷歌DeepMind首席科学家Oriol Vinyals X平台推文

陈茜:谷歌这次不仅是追赶,简直是超越。Gemini项目负责人在发布会中提到了新版本“改进了预训练和后训练”,这是否意味着Scaling Law并没有“撞墙”?谷歌的秘密武器到底是什么?

田渊栋:说实话,“改进了预训练和后训练”这句话基本等于废话(笑)。因为做模型本来就是个系统工程,数据更好、架构微调、训练稳定性增强,每一块都好一点,最后结果肯定强。

但我更关注的是,如果预训练做得足够好,模型本身变得非常“聪明”,那它在后训练阶段就会表现得像个天才学生,给几个样本就通了,不需要花大力气去教。现在看来Gemini 3的基座能力确实很强。

关于它是不是用了什么秘密武器,我听到一些传言,说Google终于把之前训练流程里的一些Bug给修掉了。当然这是传言啊,无法证实。不过对于Google这种量级的公司,只要工程上不犯错,把所有细节拉满,Scaling Law自然会发挥作用。


Gavin Wang

前meta AI工程师,负责Llama 3后训练及多模态推理

Gavin Wang:我昨天试着跟Gemini 3聊了一下,问它“你为什么这么厉害?”(笑)。它跟我剖析了一下,提到了一个概念叫Tree of Thoughts(思维树)。

以前我们做CoT (Chain of Thoughts) 是线性的,像链表一样一步步推。但Gemini 3似乎在模型内部采用了树状搜索,并且配合了一个Self-rewarding(自我奖励)的机制。也就是说,它在内部会同时跑多条思路,然后自己有一个打分机制,觉得哪条路不Make sense就Drop掉,哪条路有前途就继续Adapt。

这其实是Engineering Wrapper(工程封装)和Model Science(模型科学)的深度结合。以前我们要在外面写prompt搞这些,现在谷歌把它做进了模型内部环境里。这不仅是Scaling Law在垂直方向的堆料,更是在水平方向上引入了MoE和Search的机制。这让我想起三年前的GPT时刻,技术上非常Impressive。

Nathan Wang:我补充一个细节,我在查阅Gemini开发者API文档时,发现里面藏了一个彩蛋。它在一行注释里写道:"Context Engineering is a way to go.(语境工程是大势所趋)"

这句话让我思考了很久。以前我们说prompt Engineering,现在谷歌提Context Engineering。我自己在使用时的体感是,比如我想写一条能引起“病毒式传播”的推文,我会先让AI去搜索“怎么写一条火爆的推文”,让它先把方法论总结出来,作为Context,然后再把我的内容填进去生成。

谷歌似乎把这个过程自动化了。它在模型生成答案之前,可能已经在后台自动抓取了大量相关的Context,构建了一个极其丰富的思维链环境,然后再生成结果。这可能就是为什么它用起来觉得“懂你”的原因。它不仅仅是在回答,而是在一个engineered environment(工程环境)里思考。

陈羽北:除了算法层面,我想提一个更底层的经济学视角。我的朋友Brian Cheng提过一个观点,我认为非常切中要害:谷歌之所以能如此坚决、彻底地执行Scaling Law,是因为它拥有无法比拟的硬件优势——TPU。

大家想一下,如果其他公司要训练大模型,必须买NVIDIA的显卡。NVIDIA的硬件利润率高达70%以上。但谷歌不同,它是完全的软硬件整合。它用自己的 TPU,没有中间商赚差价。这让它的Unit Economy(单位经济模型) 极其优秀。在同样的预算下,谷歌可以训练更大的模型、跑更多的数据、做更昂贵的多模态实验。

所以,只要Scaling Law还需要堆算力,谷歌这种硬件上的不对称优势就会对OpenAI和Anthropic形成巨大的挤压。除非NVIDIA降价,或者其他家也造出自己的芯片,否则这个护城河非常深。


03

开发者生态

Coding之争结束了吗?


随着Gemini 3和AntiGravity的发布,以及其在SWE-bench等代码榜单上的屠榜,社交媒体上出现了“Coding之争已结束”的言论。谷歌是否正在利用其庞大的生态系统(Chrome, Android, Cloud)构建一条让Cursor等创业公司无法逾越的护城河?

陈茜:很多人说Coding之争已经结束了,Gemini 3配合谷歌全家桶将横扫一切。这对Cursor等等这样的创业公司意味着什么?

Gavin Wang:我觉得谷歌这次确实有点“降维打击”的意思。AntiGravity直接对标Codex加Cursor,而且它因为拥有Chrome的底层权限,可以做到视觉与代码的完美对齐。

现在的体验是,AI一边看着网页(视觉),一边帮你改代码,这种Multimodal Native(多模态原生)的体验是Next Level的。相比之下,Figma或Cursor目前还更像是一个Chatbot。如果谷歌把Chrome、Cloud、IDE全部打通,对于创业公司来说,这确实很难受。

但这也催生了新的机会。比如Palantir 提出的Forward Deployed Engineer(前置部署工程师)概念。未来的工程师可能不再只是写代码,而是打通从商业化、产品定义(PM)到前后端开发的全链路。既然基模能力水涨船高,我们应该造一艘“小船”,站在巨人的肩膀上创造价值,而不是去卷基模已经能做的事。

就像Nathan说的,Web Coding这种简单的前端工作可能会被谷歌包圆,但这就逼着我们去寻找新的Business Model和Product Shape(产品形态)。


Nathan Wang

资深AI开发者、硅谷101特约研究员

Nathan Wang:我觉得说“结束”还言之过早。AntiGravity确实强,但我发现在实际使用中,它在处理后端(Backend)部署、复杂的系统架构时,依然很容易卡住。

比如我在用Browser use上传文件做测试时,它经常会停在那儿,需要我去干预。它目前更像是一个极其强大的前端生成器。而且,对于很多企业来说,把代码全部交给谷歌的生态系统,在数据隐私上也是有顾虑的。Cursor这种独立厂商依然有它的生存空间,特别是它在灵活性和特定语言优化上。

田渊栋:对,我也觉得网上的Demo有点误导性。现在的Demo很多是一键生成酷炫的前端页面,大家看的是“漂亮程度”和“完整性”。

但真正写Code的人,关注的是Instruction Following(指令遵循)。比如我要把这段代码的逻辑稍微改一点点,或者我要处理一个非常琐碎的Corner Case(边缘情况),模型能不能听懂?能不能改对?

我试过让它写一个3D第一人称射击游戏。它确实写出来了,画面也不错,但我一跑发现——方向键是反的。这种小Bug看起来不碍事,但在大规模工程里就是灾难。所以对于专业程序员来说,它目前还是一个能够降低门槛的辅助工具,而不是替代者。


04

后LLM时代

AI是否“绑架”了美国GDP?

尽管谷歌证明了Scaling Law依然有力,但硅谷的目光已经投向了更远的地方。近期,一批被称为“NeoLab”的非主流AI实验室(如Reflection AI、Periodic Labs)受到风投追捧,融资额都非常高。在LLM之外,AI的下一个范式转移将在哪里发生?


The Information

陈茜:除了Scaling Law,大家看到什么非主流的、值得关注的AI发展趋势?特别是像NeoLab们所关注的那些领域。

田渊栋:我一直以来的观点是:Scaling Law是一个很有用的工程规律,但如果不去探索本质,我们总有一天会面临资源枯竭。难道我们真的要把整个地球变成一块巨大的显卡吗?如果算力需求是指数增长,而地球资源是有限的,这条路终究走不通。

所以我一直坚持做AI的可解释性(Interpretability)和 顿悟(Grokking)机制的研究。我相信一个如此高效的神经网络,背后一定有一个优美的数学内核。如果我们能从First Principle(第一性原理)出发,理解它是如何产生涌现(Emergence)的,也许有一天我们会发现,根本不需要梯度下降(Gradient Descent),就能找到更好的算法。

另外,我也在用AI加速我的研究。比如最近是ICML的Rebuttal(同行评审中的反驳/辩护过程)期间,我有个新想法,直接丢给Cursor,3分钟代码写完,图画出来,我马上就能验证这个Idea行不行。这种效率提升成百上千倍,这本身也会加速我们对AI本质的探索。

陈羽北:我非常同意渊栋学长的观点。如果Scaling Law是唯一的定律,那人类的未来太悲观了。我们既没有那么多电,以后数据也都交给AI了,那人类除了当宠物还有什么价值?

我观察到自然界有一个悖论,这可能是一个突破口:越高级的智能,其实越依赖学习,但所需的数据却越少。

你看人类小孩,在13岁之前,他接触到的所有Token(语言数据),加起来可能不到10Billion(100亿)。相比现在大模型动不动几Trillion的数据训练量,人类的数据效率是极高的。但人类的大脑结构非常复杂(上千亿神经元)。所以,大模型未必大在数据,可能应该大在架构。

我觉得我们现在的LLM更像是在Distill our existing civilization(蒸馏我们现有的文明),把它压缩得更好一点。但我希望未来的AI,比如Robotics(机器人)或者World Model(世界模型),能够像生物一样去探索未知,Invent a new civilization(发明新的文明)。这需要我们这些Researcher去做一些看起来 "Weird"(怪异)或者 "Crazy" 的研究,去寻找Scaling Law之外的第二条曲线。

Gavin Wang:顺着羽北的话说,我觉得World Model(世界模型)绝对是下一个战场。

现在的LLM还是纯语言维度的。但真正的世界模型,是要能理解物理规律的。目前主要有三条路线:一是像Genie 3这种Video-based的,虽然是2D视频但模拟3D世界;二是Mesh/Physics-based的,带有物理碰撞体积;三是像李飞飞老师团队做的Gaussian Splatting(高斯泼溅),用点云来表征空间。

另外,我特别想呼吁大家关注Open Source(开源)和Small Language Models(端侧小模型)。

现在的智能其实被“囚禁”在GPU Data Center里。普通人要用智能,得付费买 API,这就像我们还要给空气付费一样。这其实是一种Digital Centralization(数字集权)。

如果端侧小模型能发展起来,让每个人在自己的手机、电脑上就能跑得动高性能的 AI,不需要联网,不需要付昂贵的订阅费,这才是真正的AI for Everyone。这也需要我们在模型架构上做很多优化,而不仅仅是堆显卡。

05

泡沫还是奇点?

Gemini 3的发布,某种程度上是Google对“AI泡沫论”的一次强力回击。它证明了只要有足够的算力、数据和工程优化,Scaling Law仍有巨大的红利可吃。

然而,今天直播中很多嘉宾们的观点,也都在指出单纯的Scaling并不是通向AGI的唯一路径。

今天我们的直播,其实我们不仅想聊聊Gemini 3发布下的谷歌“技术秀肌肉”,还有来自硅谷一线的、冷静而深刻的思考。Gemini 3暂时领先了现在的战役,这对谷歌来说是重要的一个里程碑;但AI的大战役,才刚刚开始。

硅谷101将不定期开启直播,我们的Bilibili|Youtube收看完整版

国内:B站|腾讯|视频号|西瓜|头条|百家号|36kr|微博|虎嗅

海外:Youtube

联系我们:video@sv101.net

监制|泓君 陈茜

主持 |陈茜

撰稿|刘一鸣

运营|王梓沁 孙泽平 何源清

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新