当前位置: 首页 » 资讯 » 新科技 » 正文

世界模型,大语言模型之后的第二场革命

IP属地 中国·北京 编辑:刘敏 数据猿 时间:2025-10-21 10:56:07
大语言模型是基础,世界模型是途径,自主智能才是AI的终极奥义。

数据猿

大语言模型是基础,世界模型是途径,自主智能才是AI的终极奥义。

在过去两年里,大语言模型(LLM)在语言理解、文本生成、推理、指令执行等方向取得突破,使AI在理解语义层面变得越来越可靠。

然而,语言智能只是通向通用智能的一环。要让AI在懂语言的基础上,去理解真正的世界,就必须让它理解环境、感知动态、在环境中做出行动判断。这其中的关键,就是世界模型(World Model)。

世界模型的核心是让AI内部构建一个可交互的世界,要理解物理规则、模拟未来状态、预测动作结果。实现从静态图像、视频生成,逐步走向多模态、带动作控制的视觉语言动作模型(VLA,Vision-Language-Action)。

从OpenAI的Sora(文本→视频世界模拟)到DeepMind的Genie(可交互世界生成),从meta的V-JEPA 2(视觉自监督世界模型)到特斯拉在自动驾驶系统中隐含的世界意识探索,乃至国内诸如华为ADS等智驾系统,这些案例都表明世界模型正成为AI Agent化路径上的关键支点。

可以预见,未来的AI Agent很可能是LLM+世界模型+执行动作层的三层协同结构。理解这一趋势,对我们判断产业方向、技术路线、战略布局至关重要。

从语言到世界:AI理解的边界在延伸

如果说大语言模型让AI学会了理解语言,那么世界模型的出现,则意味着AI开始尝试理解世界。

在人工智能研究的脉络中,世界模型(World Model)并不是一个全新的概念。早在2018年,谷歌大脑研究科学家David Ha与瑞士AI实验室IDSIA负责人Jürgen Schmidhuber在经典论文《World Models》中提出,智能体要想高效学习,就必须在大脑中构建世界的内部模型。这种模型能够通过感知输入,去预测外部世界在未来的变化,在内部想象出一系列可能的结果,从而据此选择行动。

Sora2

几乎在同一时间,meta发布视觉自监督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。这是由Yann LeCun团队主导的项目,旨在让AI通过预测视觉序列中的时空变化,在潜在空间中理解世界的结构与规律。与生成式模型不同,V-JEPA不直接生成图像,而是学习世界的抽象表征,这是meta首次在视觉领域明确提出构建世界模型的研究方向。

Sora、V-JEPA与Genie,分别代表了世界模型演化的三个方向,生成世界、理解世界、参与世界。三者几乎出现在同一时间节点,共同组成了世界模型认知层面的突破。

而另一条更具现实意义的路径,则来自执行层面的落地。

自2023年底起,特斯拉在其自动驾驶系统FSD(Full Self-Driving)中推行端到端神经网络架构,从感知到规划再到控制,全部由统一模型完成。

马斯克将FSD V12称为世界模型驱动的驾驶系统,因为车辆已不依赖高精地图或人工编码规则,而是通过多摄像头视频流在内部重建外部环境,并实时预测交通参与者的行为。今年上半年推出的FSD V13进一步加入时序记忆与多模态预测,使这一世界模型式驾驶的雏形更趋完整。

而在国内,这样的探索思路也几乎同步落地。

比如华为在2024年4月发布ADS 3.0(乾崑),以去高精地图与世界建模感知为核心,依托多源传感重建动态场景;

小鹏在2024年5月公布XPlanner(规划与控制大模型),与感知网络XNet、车载大模型XBrain组成端到端量产栈,将长时序预测引入轨迹规划;

百度Apollo则在同月推出ADFM自动驾驶基础模型,并搭载到第六代 Robotaxi。

这些系统共同指向一个趋势,世界模型正在从虚拟场景走向真实世界,从认知世界转向执行世界。如果说Sora、V-JEPA、Genie们构建的是AI的感知与想象层,那么FSD、ADS、XPlanner、Apollo们则构建了AI的行动与落地层。前者是通往通用智能的基础,后者则是将智能具象化的通道。

中美双极:世界模型竞赛的两种路径

如今,世界模型已经成为全球AI竞争的新焦点。其中,最具代表性的当属中美之间的竞争。

这场看似关于算法的较量,背后却是认知方式与产业逻辑的分歧,也正因为这种分歧,中美两国正走在两条不同的路径上。

前文说过,在美国,OpenAI、DeepMind、Google、meta、Anthropic五大巨头构成了最具体系化的世界建模阵营。

它们的共同特征是,从语言模型出发,沿着认知生成具身(Embodied)的路线,把AI从语言理解延伸到物理模拟。

今年9月,Sora 2登场,不仅整合了音视频统一建模和动态光照控制,还新增 Cameo功能,让用户可以直接把自己嵌入生成的世界中。

今年8月,DeepMind发布Genie 3,允许从自然语言直接生成三维、可操作的虚拟世界,用户能实时控制角色,与环境交互并观察反馈。

今年6月,meta V-JEPA 2以自监督方式让AI理解视频中的时序与动力规律,成为世界模型视觉直觉的雏形。它不依赖标签数据,而是通过预测画面未来帧的方式,逼近人类感知世界的方式。

与此同时,尽管Google Gemini 2.5 Pro与Anthropic Claude 4.5不算严格意义上的世界模型,但它们都在让语言模型具备理解世界的能力,前者通过多模态语义建模理解现实逻辑,后者通过隐式因果推理保持认知一致性。

以此可见,美国的研究体系已经形成了完整的认知链条,从理解语言、预测视觉变化到生成并模拟世界。

而在中国,世界模型的侧重方向更贴近执行层面。

从智能驾驶到行业智能体,再到具身机器人,国内企业更关注AI在真实物理环境中的可感知、可预测与可执行性。可以说,中国企业更看重系统集成与工程落地。

智能驾驶之外,国内世界模型的思想和策略也正在进入更多行业场景。

比如华为盘古大模型引入物理建模框架,将世界模型理念应用到气象预测、制造、制药等工业领域;

百度文心在视频理解和数字人交互中融入动态世界建模机制,此类案例非常多,这里就不一一展开。

更具代表性的,是中国在具身智能方向的系统化突破。

过去一年,宇树、优必选、傅利叶、小米等公司,陆续推出新一代人形与四足机器人,让世界模型从算法概念真正落地到机器身体。

比如宇树发布的R1人形机器人,支持图像与语音多模态融合,可进行动态行走与交互;

傅利叶推出可遥操作的GR-3C人形机器人版本,可用于康复与人机协作;

当然,这种解读仅限于生态偏重,不涉及能力边界。

美国并非只有认知与生成。以特斯拉、Figure AI、Boston Dynamics为代表的企业,已经在构建具身智能与自动驾驶的世界建模系统建立一定优势。

国内也不止于感知与执行。万相、可灵等视频生成模型,也在构建中国版的视觉世界模拟器。

尽管中美两国为代表的世界模型演变生态逻辑不同,但从更长的技术周期看,这种分野正逐渐进化为互补关系。

世界模型的最终方向,肯定不是生成完美的视频,也不是控制一辆汽车,而是打通理解预测行动的完整闭环。从这个层面来说,中美两国正共同构建通向通用智能的现实路径。

AI的下一个临界点:世界模型接管智能体

过去十年,AI的每一次跃迁都源自输入方式的变革:文字带来了语言智能,图像催生了视觉智能,而如今,世界模型正在让AI理解现实世界,一个有时间、有空间、有因果的动态系统。

这正是世界模型的核心价值,它让AI获得了具身智能(Embodied Intelligence)的基础。

在过去的一年中,具身智能已经成为全球AI研究的共识。

如OpenAI投资的Figure AI,正在以GPT系列模型驱动人形机器人的决策系统;特斯拉的FSD与Optimus,分别在道路和工厂场景中验证世界模型驱动的闭环控制;中国的机器人企业也在让模型直接掌控传感器与电机,使算法真正落地到身体。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。