当前位置: 首页 » 资讯 » 新金融 » 正文

李飞飞的反共识判断

IP属地 中国·北京 虎嗅APP 时间:2026-02-06 20:23:28


本文来自微信公众号:划重点KeyPoints,作者:林易,原文标题:《李飞飞的反共识判断:大语言模型无法通往AGI,空间智能才是最优路径》,题图来自:视觉中国

2月4日,在思科(Cisco)AI峰会上,李飞飞以World Labs创始人的身份,披露了公司首款空间智能产品Marble的技术细节 。

作为这一轮生成式AI浪潮的核心奠基者之一,李飞飞并未盲目追逐大语言模型的热潮。相反,她再次抛出了一个鲜明的反共识观点:单纯的大语言模型无法通往AGI。

在李飞飞看来,语言在生物进化史上只是最近50万年的产物,而视觉与触觉所代表的空间智能,早在5亿年前的寒武纪就开启了神经系统的演化竞赛。如果AI无法理解三维物理世界、无法具备物理直觉,它就只能被永远困在数字的像素中。

带着这样的判断,李飞飞创办的World Labs试图走通一条不同于OpenAI的路径:通过构建具有物理一致性的世界模型,为AI补上感知的短板。

我们梳理了这场访谈的核心信息,以下是重点内容:

1. AGI路线之争:语言并不是智能的全部,甚至不是智能的基石。

李飞飞用生物进化的宏观视角重新审视了AI的发展路径:语言在人类进化史上只有约50万年的历史,是极其晚近的产物。相比之下,视觉、触觉等感知能力早在5亿年前的寒武纪就开启了演化竞赛。

结论是:如果AI只有语言能力,它将被永远困在数字世界中。只有补齐了比语言更古老、更基础的空间智能,让机器拥有理解、推理并与三维物理世界互动的能力,AI才能真正通往AGI。

2. 重新定义世界模型:物理一致性(Physical Consistency)是关键。

李飞飞介绍,作为一个前沿空间智能模型,Marble能接收多模态输入,无论是句子、图片、视频还是简单的3D输入,并将这些提示词转化为一个完全可导航、可交互且具有永久一致性的3D世界。

与Sora等强调视觉效果的视频模型不同,Marble生成的环境具有几何结构(Geometric Structure)和物理一致性。这意味着生成的不仅仅是一段像素动画,而是一个拥有物理属性的虚拟空间,用户可以在其中自由漫游。

Marble目前已被用于游戏开发、影视特效(VFX)、机器人训练、室内设计等领域,临床研究人员将Marble用于治疗强迫症,通过生成特定的触发环境(如脏乱的洗衣房)来对患者使用暴露疗法。

3. 随着合成数据技术的成熟,世界模型即将迎来类似LLM的Scaling Law爆发时刻。

为什么物理世界的AI 发展比语言模型慢?核心瓶颈在于数据的信噪比。文本数据是清晰、语义明确的,而物理世界的像素(Pixels)和体素(Voxels)充满了噪音,且难以大规模获取 。

为了解决这一难题,World Labs采取了一种混合数据策略(Hybrid Data Strategy):利用互联网现有的文本、图像、视频数据;结合仿真模拟数据(Synthetic Data);加上真实世界采集的数据。

李飞飞预判,随着合成数据技术的成熟,世界模型领域即将迎来类似LLM的Scaling Law爆发时刻。

4. 通用机器人才是AI技术的皇冠,因为自动驾驶与通用机器人的逻辑完全相反。

大众往往认为自动驾驶是AI技术的皇冠,但在李飞飞看来,通用机器人的维度要高得多。

自动驾驶是2D 逻辑:汽车本质上是一个在二维平面移动的方块,它的核心任务是避障,只要不碰到东西就是胜利。

通用机器人则是3D 逻辑:机器人的核心任务恰恰相反,是接触,它必须在三维空间中,以不破坏物体的方式进行精确操作。

5.AI技术的终局是成为新的电力,成为赋能文明的基础设施。

面对当前关于AI毁灭人类或技术乌托邦的极化争论,李飞飞表现出了科学家的审慎与人文关怀。

她将AI比作一百多年前的电力。电力的成功,不是因为建立了庞大的电网,而是因为它点亮了学校的灯、驱动了工厂的机器、延长了人类的寿命。同理,AI的成功不在于模型参数有多大,而在于它能否像电力一样,成为一种赋能文明的基础设施,让每一个体获得尊严与幸福 。

李飞飞在访谈结束时透露,World Labs的目标是让空间智能技术真正进入医疗健康、农业制造等各个垂直行业。希望在2026年,我们能看到拥有了空间智能的AI,真正走出屏幕,与物理世界产生美妙的交互。

以下为李飞飞访谈实录:

1、空间智能是AI的下一个前沿领域

主持人:很高兴能亲眼见证World Labs在过去一年中所取得的进展。让我们先来聊聊你们正在做的事情,以及它为何如此重要。

李飞飞:现在我每天醒来脑子里只思考一件事,那就是空间智能(spatial intelligence)。大约两年前,我与一群年轻的技术专家共同创立了World Labs。为什么空间智能如此重要?我认为它是AI的下一个前沿领域。如果从进化的角度看待智能发展,这段历史可以追溯到5亿多年前。最先开启神经系统演化竞赛的是感知而非语言。相比之下,语言是一种非常新颖的智能形式,历史大概只有50万年。但在15亿年前,动物就开始感知光线并触摸环境,从而产生了触觉、视觉、本能和知觉。

“本能”这个词虽然有些模糊,但不可否认的是,正是通过触觉和视觉与物理世界进行身体接触,才开启了神经系统的发育,引发了动物进化的军备竞赛。这使得生物在与环境交互中变得越来越活跃,也越来越智能。我想表达的是,在真实的3D、4D物理世界中进行理解、推理、交互和导航的能力是基础性的,与语言智能同样重要。这一核心关键技术就是空间智能。这就是为什么我认为它是AI的下一代前沿领域,也是World Labs一直致力于构建的目标。

主持人:请跟我们聊聊Marble,这是你们最近刚刚发布的产品。究竟什么是Marble?

李飞飞:Marble是我们第一代空间智能模型。虽然我们常随口称其为世界模型(world model),但鉴于目前关于世界模型的定义繁多,称谓其实并不重要。本质上,这是一个前沿的空间智能模型。Marble能接收多模态输入,无论是句子、图片、视频还是简单的3D输入,并将这些提示词转化为一个完全可导航、可交互且具有永久一致性的3D世界。这与大家现在看到的视频模型截然不同,Marble生成的环境拥有几何结构,支持模拟机器人动作或编写游戏代码等操作。

李飞飞:我们大约两个月前发布了Marble。虽然它仍处于起步阶段,是第一代产品,但作为最先进的3D生成式世界模型,我们对开启这段旅程感到非常激动。

主持人:有一种观点认为,如果仅仅依赖语言模型,我们将无法实现AGI,必须对自身的物理性进行某种增强。您显然深信这一点。那么请谈谈这个维度,随着时间推移,未来五年最重要的突破点会是什么?除了机器人技术这个显而易见的用例,还有哪些我们今天无法想象的应用?

李飞飞:其实不需要等五年,我们的用户和客户已经开始尝试早期版本的模型了。我们看到用户利用它开发游戏;视觉特效(VFX)客户将其用于商业化的虚拟制作场景;包括Nvidia在内的大公司、初创企业及学术实验室等合作伙伴,正在利用Marble作为训练环境来训练机器人;建筑师和设计师则用它进行室内设计。

我们还发现了一些意想不到的用例。例如,临床研究人员对Marble表现出了极大的热情。大量的精神病学和心理健康研究及干预手段都需要沉浸式环境,且需针对特定情况进行个性化定制。以强迫症(OCD)为例,患者会被非常具体的场景触发,比如我个人会被堆积的脏衣服困扰,但每个人的触发点各不相同。研究人员发现搭建实体环境非常困难,而Marble只需输入提示词,几分钟内就能生成各种不同类型的环境。

此外,还有人将其用于健身训练,比如个性化的瑜伽环境。随着Marble不断完善,毕竟我们现在还处于早期阶段,我相信未来会看到越来越多横向的应用场景。

2、AI的社会价值

主持人:你进入AI行业已经很长时间了。

李飞飞:这是在委婉地讨论我的年龄。

主持人:不,我的意思是,你不仅仅是那种跟风研究了三年的人,而是将毕生精力都奉献给了AI。当你创立这家公司并着手构建空间智能时,最让你感到惊讶的是什么?

李飞飞:这个问题问得很好。正如我们讨论过的,即便到了我们这个年纪,保持求知欲和学习能力依然是最重要的事情。我投身AI领域已经很多年了,最初是因为强烈的好奇心,我想探索什么是智能以及如何让机器变得智能。当时AI还是一个无人问津的冷门领域,大家甚至不知道怎么拼写AI,那段时光非常有趣。但过去十年发生了翻天覆地的变化,AI对我而言不再仅仅是个人层面的追求,它已经上升到了文明层面。这让我作为教育者和企业家多了一层责任感,不仅要在技术上做出贡献,还要推动其健康发展。

作为企业家,最让我惊讶的有几点。首先是过去几年AI的发展速度令人屏息。无论我们外表如何淡定,内心深处都难免焦虑,因为有太多的论文要读、太多的博客、新闻和模型发布。这种焦虑感正是我们这个时代的写照,技术正以惊人的速度推动我们前进。这让我既兴奋又清醒,正如苏格拉底所言“我一无所知”,我希望大家不要放弃学习,保持好奇心。

另一点让我惊讶甚至担忧的是关于AI的极化言论。网络上的讨论往往是非黑即白的:要么是完全的技术乌托邦主义,忽略了技术是一把双刃剑;要么就是末日论调,仿佛人类时刻面临生存危机。对于一项对人类文明如此深远的技术,这种讨论方式是不负责任的。主动权掌握在每一位企业家、产品经理、工程师和公民手中,我们需要具备能动性来引导技术的发展。我真心希望在迈向2026年及未来的过程中,我们能更客观、细腻且心怀仁慈地看待AI,既保持乐观,又肩负起责任,而不是为了博取眼球去发表极端言论。

主持人:在你心中,未来几年AI取得什么样的成果才算成功?我很喜欢你提到的这种两极分化的观点,要么工作全部消失盯着大海发呆,要么技术完全没用。

李飞飞:如果我们把时间回拨一百多年,想象一下当时的人们如何定义电力的成功。很难想象那个版本的我们能预见到今天的景象,但我希望那时的愿景是:学校灯火通明,家园温暖如春,机器被赋予力量实现工业化,进而延长人类寿命,让更多孩子接受教育。这就是技术和AI的意义,是一种永恒的价值。成功的定义应该是文明变得更加美好,而文明是由每一个追求幸福、繁荣且拥有尊严的个体组成的。这就是AI以及每一项技术成功的定义。

3、世界模型与具身智能的技术难点

主持人:接下来我们谈谈战术层面。Large World Models(大型世界模型)的计算密集度是否与Language Models(语言模型)相当?

李飞飞:首先,存在不同种类的大型世界模型。我们致力于创建具有显式3D表示的世界模型,以赋能机器人、游戏、娱乐和设计等领域。还有一类通常被称为世界模型的其实是视频生成模型。目前我们的模型规模并没有那么大。从宏观视角来看,GPT-5的训练量大约在10的26次方flops(每秒浮点计算)左右,而我们的Marble模型在规模上仍要小几个数量级。

主持人:这仅仅是因为没有足够的数据来喂给这些模型吗?

李飞飞:我认为两者兼而有之。规模化确实始于数据和模型参数,数据起到了重要作用。但另一方面,这个领域还处于早期阶段。Transformer论文发表于2016年左右,语言模型的发展已经快十年了,而世界模型是一个新得多的领域。虽然过去两年我们降低了一些科学风险,但仍处于探索模型架构的相对早期阶段,所以规模较小。不过考虑到我们实验室以及整个领域的进展,接下来的几年将会非常令人兴奋,我们将见证大型世界模型在Scaling Law(规模定律)曲线上的飞跃。

主持人:这让我很着迷。语言模型是在互联网上免费、公开的数据上训练的,获取海量数据相对容易。但物理数据很难获取,因此合成数据(Synthetic Data)变得至关重要,同时你也需要以更慢的速度去收集真实数据。这带来了哪些限制?世界模型的进步速度会因此变慢吗?我们会拥有通用机器人,还是因为数据限制只能拥有专用机器人?

李飞飞:这是一个信息量很大的问题。在World Labs,我们采取混合数据策略。我非常羡慕研究语言的朋友,因为语言数据的输入是完全可观测的、单一模态的,且含义清晰。而像素或体素构成的3D世界则要混乱得多。为了突破技术极限创造3D、4D世界,我们必须意识到我们并没有海量的3D数据。因此我们采取分层混合方法:利用互联网规模的文本、图像和视频,结合模拟数据,再加上真实世界采集的数据。这就像自动驾驶公司花费数十年收集真实和模拟数据一样。

至于速度,虽然数据获取难,但算力在增强,芯片在进步,整个生态系统也在成熟。我们现在合作的数据供应商在三年前甚至不存在。合成数据确实发挥了很好的作用,而且我们正在制作的模型也将反过来为模拟世界贡献数据,形成飞轮效应。

关于通用机器人,这几句话就能概括,但做起来很难。我在斯坦福运营机器人实验室十多年,作为科学家,我必须承认这是一个极具挑战的问题。看清北极星并不意味着旅程会很短。回想2006年,我和同事带领团队创造了第一辆在沙漠行驶138英里的自动驾驶汽车,当时我们预言20年后会有自动驾驶汽车。直到去年,Waymo才开始在城市街道大规模运行,这确实是一段漫长的旅程。

汽车与机器人的区别在于,汽车可以被视作一个在二维平面上移动的方块机器人,它的目标是不要碰到任何东西。而机器人是一个三维实体,在三维世界中运行,通用机器人的目标是必须接触物体而不破坏它们。这是一个更高维度的问题,加上手部模拟的极高难度、视觉的精准度以及空间理解的需求,挑战巨大。这就是我创立World Labs的原因。我不喜欢过度承诺,但这确实是我们致力于解决的重要问题。

主持人:最后,对于企业界人士,他们应该如何看待世界模型、物理AI以及你正在思考的整个领域?

李飞飞:虽然我的思维方式有时候还像个研究生,总想着要有免费食物才行,但对于企业而言,World Labs非常乐意与合作伙伴交流。世界模型和空间智能是一项横向技术。我们谈论机器人、模拟和沉浸式交互娱乐,但这不仅仅局限于此。我们还没有深入探讨医疗保健、教育产品、现场服务、金融服务、农业制造、仓储检测以及城市规划等领域。利用空间智能我们可以做的事情还有很多,这确实是下一个前沿领域,我邀请大家无论是与我们合作还是独立开展研究,都加入到这个进程中来。

本文来自微信公众号:划重点KeyPoints,作者:林易

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4832937.html?f=wyxwapp

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。