当前位置: 首页 » 资讯 » 新科技 » 正文

圆桌|世界模型的“前世今生”与终局猜想

IP属地 中国·北京 雷峰网 时间:2026-02-12 16:40:23

至今,科技圈对“世界模型”仍未给出一个标准定义。但这不妨碍它成为当下最性感的叙事:

在VC眼中,它是验证商业闭环的终极沙盘;在具身智能赛道,它是让机器人学会“走一步看三步”的预判大脑;而在元宇宙的废墟之上,它被视为信息载体从2D视频向3D交互世界跃迁的最后一块拼图。

就在1月23日,据彭博社报道,李飞飞正在就其创办的初创公司 World Labs 进行新一轮融资洽谈,目标估值约为 50 亿美元。

在这个概念还未被祛魅的时刻,中关村早期投资论坛找到几位不同背景的先行者。他们不谈虚无的共识,只求在视角的碰撞中,厘清这波AI新浪潮的真实商业脉络。

由雷峰网总编辑林觉民主持的一场圆桌论坛上,英诺科创基金合伙人王晟、流形空间创始人武伟、VAST创始人宋亚宸以及千诀科技合伙人蒋屹舟齐聚一堂。这场对话并非为了寻求某种平庸的共识,而是旨在呈现出一场关于世界模型讨论。


圆桌论坛现场

以下是本次圆桌的深度对话实录:

林觉民:请各位做一下简单的自我介绍。


雷峰网总编辑林觉民

武伟: Manifold AI(流形空间),去年6月刚成立,专注世界模型,目前主攻具身大脑落地,用在机械和无人机上。

宋亚宸:VAST创始人,做AI 3D大模型,服务游戏、动画、影视这些需要"造世界"的场景。

蒋屹舟:千诀科技合伙人,今天本来是师兄(CEO)来,我们师兄弟三人一起创业,我临时顶包。我们做家居场景的通用机器人类脑大脑,用类脑技术做决策和感知。

一、 概念定义:从仿真到预测

林觉民:听说这场圆桌本来是要"干仗"的,主要是目前行业内对于“世界模型”尚未形成统一的定义,有人要做具身智能的世界模型,有人做数字空间的,Google Gemini3 又是一派。所以今天我们不凝聚共识,就各抒己见,百家争鸣。

王晟(英诺科创基金):

我们将世界模型视为特定领域内逼近“Ground Truth(地面真值)”的模拟系统。

它不一定要在物理上100%复刻真实世界,而是要定义一个“域(World)”,比如医疗、法律或具身智能领域。在这个域中,模型能够模拟出符合客观规律的反馈。以医疗为例,如果模型能准确模拟出病人服药后的生理指标变化,且无限接近真实结果,它就是该领域的优秀世界模型。其核心价值在于提供准确的反馈(Reward),强化AI的学习效率。


英诺科创基金创始人王晟

武伟(流形空间):

我们的定义包含两个关键词:模拟与交互。即“用模拟的方式实现泛化的交互”。

目前行业内主要有三个流派:1.仿真器派: 如英伟达,主要用于云端合成数据,辅助智能体训练;2.通用交互界面派: 如Google Gemini、World Labs,打造开放的可交互数字环境,偏向娱乐应用;3.具身大脑派(我们所选路线): 让机器人具备内生的推理和想象能力。不仅是模仿动作,而是通过大脑推演“如果我这样做,世界会发生什么变化”,从而指导实际操作。


流形空间创始人 武伟

林觉民:Manifold和蒋总都是做“大脑”的,我们现在是哪个路线,以及为什么要选择这样的路线?

武伟(流形空间):

准确说是foundation model 派 vs 内脑架构派。我们把世界模型当作机器人原生的 foundation model,建模物理空间移动和操作的内生认知,用一段式或两段式端到端实现;千诀则是模拟人脑分区,用多个小模型/skills组合来降低功耗。

这种差异纯粹是团队基因决定的——我们是晟总 PPT 里那批"CV 派+自动驾驶派",我 2015 年加入商汤干了十年,2021-2025 年在中国最早提出自动驾驶端到端和世界模型。这种背景让我们必须 all in 端到端和数据的 scaling,而不是走小模型拼接的路线。

宋亚宸(VAST):

李飞飞 World Labs 的 BP 里唯一提到的公司就是我们,我还发给晟总偷看了。她定义世界模型三大场景:3D 生成、XR 空间智能、机器人——前两个才是重点。

Luma(我们老同行,做 AI 3D 转去做世界模型)刚融了 9 亿美金,比李飞飞还多,估值 40 亿。这说明世界模型确实是 AI 终局,但分两层:一层是具身智能让机器人替代人类,这层很可怕——作为文科生,要是会写小说,未来就是恐怖片。

另一层更重要:劳动力被解放后,人最终只能卷创意本身。当 AI 3D 让人"造万物"、AI Coding 让人"定规则",每个人都能零门槛创造虚拟世界——重力可以不是 9.8,你可以飞、可以重写社会规则。这就是马良的神笔,人人为我、我为人人的"天堂"。

未来人的价值,就看你创造的世界里别人愿意花多少时间。AI 让人像神一样创造世界级体验,这才是世界大模型的终局意义。


VAST创始人宋亚宸

林觉民:您这就是想造个"言出法随"的东西?

宋亚宸(VAST):必然的!未来每个人心想事成、言出法随,就是马良的神笔。

林觉民:快过年了,这话太应景了,不过宋总确实站得高,不仅是李飞飞 BP 里唯一提到的公司,他自己也是 MiniMax 早期创始人,刚才直接把世界模型定义成了整个 AI 的终局。

蒋屹舟(千诀科技):

其实早年实验室看世界模型,核心在于"理解世界"而非预测——就像牛顿看苹果落地能推导出万有引力公式,或者AI只读文字就能画出世界地图,这是一种对物理规律的底层抽象。

后来李飞飞带火了"预测世界",我们起初觉得"又来吹牛了",这不就是十年前强化学习里用的"视频预测"换了个名字吗?但后来发现对机器人确实关键——没有理解就无法外推,比如叠大小不同的衣服,这种细微差别很难人工建模,必须让模型具备底层认知才能做预测。

我们走类脑路线(非端到端的小模型组合),因为机器人不像GPT可以"思考十分钟",人看到机器人在等待会很痛苦。所以世界模型对我们来说是"一步三算、一步十算",像CPU分支预测一样提前推演各种可能性分支(比如回家打扫时遇到不同情况该怎么走),现在主要用于决策环节,让机器人具备真正的实时反应能力。


千诀科技创始人蒋屹舟

林觉民:所以蒋总我们其实已经把世界模型用在现实生活中了是吗?

蒋屹舟:对,目前用的更多可能是决策环节,因为我们的决策是能够一步三算的。

林觉民:李飞飞吹牛不怕,只要能实现,这个东西还是一个很好的愿景。

二、 技术路线:端到端 VS 类脑架构

林觉民:世界模型路线五花八门,最后拼什么才能跑出来?

王晟(英诺科创基金):这个问题挺复杂的,世界模型现在更多是投资共识的"标签"——就像之前必须投"具身智能"一样,现在必须投"基于世界模型的具身智能",这样才好交流、好决策。但细节层面其实一团乱麻,每家定义都不同,我作为投资人可以接受任何听起来合理的定义。

真正决定胜负的只有一点:你能不能建立一套接近 ground truth 的验证/仿真系统,能源源不断产出高质量数据。 在 scaling law 的暴力美学下,数据是核心燃料,尤其在具身领域,corner case 数据直接决定机器人会不会像自动驾驶一样出事故。这套系统产出的数据必须够 scale、够真实(能给你准确的 reward),同时分布均衡(稠密和稀疏性平衡),才能训练出既不过拟合也不稀疏的模型——核心还是归到数据。

林觉民:武总是做“大脑”的,过去一个月发了两个大脑模型,都宣称自己是世界第一,想请武总聚焦具身大脑领域回答一下。

武伟(流形空间):

商业公司活路就两条:要么 Day 1 有健康现金流,要么烧钱但增长快、天花板高。世界模型显然属于后者,关键看三点:找对落地场景、增长够快、天花板够高。

我们选具身大脑作为第一个产品化方向。做个思维游戏:人从出生到 18 岁,眼睛大概收集 300 万 clips;掌握 2000 个工种,再攒 3 亿 clips。人类一辈子能收集的数据天花板约 10 亿 clips。 如果能用 10 亿 clips 训出世界模型,达到人的智能化上限——简单任务零样本泛化,复杂任务几十个样本学会——这就是世界模型的终极天花板,商业价值极高。

倒推回来,做世界模型公司怎么 survive?快速收集 10 亿高质量数据、找到能 pre-train 的架构、泛化到零样本/少样本的应用场景——这三件事做到,就能在具身大脑这个狭窄赛道里跑出来。

宋亚宸(VAST):

为什么今天大家都在谈论世界模型?并不是因为AI技术突然成熟了,也不是因为具身智能到了某个时间点。根本原因在于,人类的信息载体正在经历一场终极升维。

回顾人类历史,我们其实一直在做一件事:对“真实世界”进行压缩。

在文字诞生前的史前文明(如良渚文化),人类接触的是直接的、3D的大自然,那是“原文件”。后来为了便于传播,我们不得不将这些3D体验“压缩”——先是压缩成文字(龟壳刻字),再是图片,直到1889年我们发明了视频。视频本质上依然是对3D世界的一种“ZIP压缩包”。

当信息密度越低(如文字),传播越容易;当带宽和算力提升,我们才开始普及图片和视频。而到了AI时代,基础设施终于足以支撑我们解压这个“压缩包”,让我们重新回到3D和世界本身。

所以,世界模型不是新物种,而是信息载体的“复原”。我们终于有能力不再处理压缩后的视频,而是直接以3D原文件作为媒介。这才是世界模型出现的真正意义。

林觉民:这个相当于是对信息的利用效率?

宋亚宸:本质是传播成本决定载体形式——信息密度越低越易传播,所以龟壳时代只能刻字,互联网时代能传图文视频。而 3D 或世界本身,才是我们最终的信息载体。

蒋屹舟(千诀科技):

我们认为世界模型不局限于视觉——盲人操作物体靠的不是看,而是对物理因果的理解(知道动作会带来什么后果,进而影响下一步决策)。这种对因果关系的把握才是核心。

类脑路线采用非端到端架构,最大优势是不需要暴力堆数据。现在 VLA 很头疼的是必须靠机械臂疯狂采集或仿真训练,而我们认为可以用人类判断代替——比如抓取物体,不必让机械臂试成千上万次,直接让人判断"人会怎么抓",把这套理解喂给模型就够了。

另外,世界模型也不一定要理解整个自然世界,人类构建的抽象世界也算——语言就是人对世界的最根本抽象,LLM 已经证明了这一点。所以只要在任意层面具备对世界的理解和预测能力,就是世界模型。我们的工作会在各个模型里融入这种思路,不局限于单一技术路线。(雷峰网雷峰网雷峰网)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。