![]()
出品|虎嗅科技组
作者|宋思杭
编辑|苗正卿
头图|2026年智源大会
如果要寻找中国大模型浪潮最重要的人才源头,智源研究院很难被绕开。
过去几年里,从这里走出了中国大模型创业版图中最耀眼的一批名字:智谱创始人唐杰,月之暗面创始人杨植麟,面壁智能联合创始人刘知远,银河通用创始人王鹤……他们后来分别创办了中国极具代表性的大模型公司和具身智能公司。
某种意义上,智源研究院见证了中国大模型产业从0到1的全过程。它既是悟道大模型的诞生地,也是智谱、月之暗面、面壁智能、银河通用等公司的重要人才摇篮。
过去一年,具身智能正在接过AI行业的接力棒。公开数据显示,2026年一季度具身智能产业链在一级市场累计披露融资达2560亿元。
而与两年前的大模型创业潮极为相似的是,具身智能赛道也开始出现明显的头部化趋势。对于估值超百亿的具身智能本体公司,大部分VC已经很难再上牌桌。在这种趋势下,一级市场的钱则开始涌向具身智能产业链上游的公司。在这其中,世界模型便是极具热度的一个方向。
尽管这个概念在过去一年频繁出现,但行业至今并未形成统一定义。在近期举办的2026智源大会上,智源研究院院长王仲远首次为世界模型的四类技术路线做了清晰划分:
第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;
第二类是以像素为中心的世界模型,2024年初OpenAI将Sora称为“World Simulator(世界模拟器)”,模型在视觉空间中学习视频或图像,学到的是像素描述的世界;
第三类是以三维结构为中心的世界模型,李飞飞创立World Labs后提出“空间智能”并多次定义世界模型,在李飞飞口中,世界模型是指让AI理解和生成可交互的三维世界,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;
第四类是以视觉表征为中心的世界模型,由meta首席AI科学家Yann LeCun提出,他主张在隐空间(Latent Space)中学习世界规律,通过预测抽象状态而非具体画面来理解现实世界,但模型预测的是视觉表征的压缩,视觉嵌入演化不等于物理规律演化。
目前智源在尝试的正是第五种路线,以语言为中心和以视觉表征为中心相结合,也叫做潜空间表征,同一个潜空间能够Decode不同的模态。
这些不同路线的共同目标只有一个,让AI不再只是理解语言,而是真正理解世界。而就在这场尚未形成共识的竞赛中,智源已经开始搭建起自己的世界模型版图。
虎嗅获悉,目前智源已经形成从基座大模型、智能体到基础软硬件生态的完整布局。其中,今年智源大会发布的悟界·Physis-v0.1与悟界·RoboBrain Orca,被视为其世界模型路线最重要的两个成果。
前者定位为全球首款通用世界基座模型,由22岁青年科学家陈博远担任负责人。加入智源后,陈博远已出任智源行为世界模型创新中心负责人,并带领团队探索下一代通用世界基座模型;后者以智源具身模型负责人王鹏伟带队,打造基于下一个物理状态预测为核心的具身大脑,希望未来能更多地赋能具身智能机器人。
如今,随着世界模型被视为人工智能下一阶段的重要方向,智源正在延续其在大模型时代的前沿探索传统,只是这一次,他们的重点不再是语言模型,而是世界模型。
从大模型到世界模型,智源为什么又提前下注?
世界模型至今仍然没有统一定义。
有人将其理解为视频生成模型的下一阶段;有人认为它是构建三维世界的基础设施;也有人认为它是机器人理解现实世界所必须具备的能力。在不同技术路线的描述中,世界模型更像一个能够理解、预测并推演未来状态的“大脑”,既可以服务于多种应用场景,也可能成为具身智能时代最重要的底层能力。
“大家对世界模型的定义都不一样,但我们想得比较清楚。”智源研究院院长王仲远告诉虎嗅。
在他看来,世界模型并不会像当年的大模型一样,很快形成统一赛道和统一竞争格局。毕竟,目前技术路线未收敛,就连每家提到的世界模型都未必是同一个概念。
“主流路径都没有统一,意味着接下来很长一段时间里,大家都会各说各的。很多非行业人士甚至分不清楚哪些是真正的世界模型。”王仲远表示。
在智源看来,他们真正想做的是一种具备泛化能力的通用世界基座模型。
这种模型并非单纯生成视频,也并非为了复刻现实世界中的每一个像素细节,而是能够理解世界运行规律,并对未来状态进行预测。
“我观察过一个2岁的小女孩,父母从来没有教过她怎么拆糖果、串蓝莓,但通过天天刷短视频、看着小姐姐吃,她自己就认识了真实物理世界的物品,并通过与真实物理世界的交互和尝试,最终学会了拆糖果、串蓝莓这些能力。而世界模型正是需要像人一样自主学习这些能力”,王仲远生动地描述了一个例子。
然而,看懂视频与理解物理世界是两回事。当前行业的一个普遍误区,正是将“视觉能力”与“物理理解”混为一谈——无论是视频生成模型,还是广泛部署于机器人公司的VLM/VLA,本质上仍停留在语言描述或像素描述的世界,并未触及物理状态预测的核心。
过去两年,VLM和VLA几乎成为所有机器人公司的标配。通过引入大模型推理能力,机器人已经能够完成简单指令理解、路径规划以及部分操作任务。
一个典型例子是,当机器人面对训练数据中从未出现过的新场景时,其泛化能力仍然十分有限。它知道应该拿起杯子,却不知道杯子掉落后会发生什么;它知道开门的动作,却不一定理解门后的空间关系变化。
归根结底,机器人仍然缺少一种对现实世界运行规律的理解能力。而这被不少研究者视为世界模型存在的意义。
“世界基座模型最重要的就是解决VLA、具身模型等遇到的痛点和卡点——不具备泛化能力,不具备自我推理和决策的能力。”王仲远向虎嗅解释道。
对于智源而言,这也是其决定提前布局世界模型的重要原因。
世界模型能复制大模型的故事吗?
智源能否复现在大模型时代的引领优势,答案值得期待。但至少在今天,世界模型还远未走到大模型2022年所处的位置。
它没有统一定义,没有统一技术路线,也没有形成行业公认的基础架构。无论是OpenAI的World Simulator、李飞飞的空间智能,还是Yann LeCun提出的世界模型框架,本质上都还处于探索阶段。
甚至直到今天,行业对于“什么才是真正的世界模型”依然存在巨大分歧。在王仲远看来,这恰恰意味着世界模型仍然处于最早期的发展阶段。
“如果做一个类比的话,今天世界模型的重要性和发展阶段,大概相当于2012年的深度学习。”王仲远这样说道。
2012年,AlexNet横空出世,第一次让深度学习展现出超越传统算法的潜力。但那个时候,没有人知道几年后会出现Transformer,也没有人能够预见ChatGPT会彻底改变整个AI产业。
站在今天回头看,人们很容易把大模型的发展视作一条清晰的演进路径。但对于当时的研究者而言,一切都充满不确定性。而世界模型正在经历类似的时刻。
它或许会成为机器人时代的基础设施,也可能演化成一种全新的智能架构;它可能诞生于具身智能,也可能率先在数字世界完成突破。唯一可以确定的是,越来越多研究机构、创业公司和资本开始将目光投向这里。
如今,行业的焦点已经从数字世界转向物理世界,这家研究院也将重点投入探索世界模型。可以肯定的是,在下一次范式转变到来之际,智源已经先站到浪潮开始的地方。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4868035.html?f=wyxwapp





京公网安备 11011402013531号