在通往通用智能(AGI)的道路上,世界模型(World Model)正被视为最关键的下一步。
通俗来说,世界模型就像是给 AI 装上了一个“大脑模拟器”。它让机器人不再仅仅是机械地执行指令,而是具备了在想象空间中预演未来的能力。当一个机械臂试图抓取杯子时,世界模型允许它在真正动手前,先在脑海中模拟不同动作可能导致的结果。
为了构建这种模型,图灵奖得主杨立昆提出了联合嵌入预测架构(JEPA)。该方法不直接让 AI 预测复杂的画面变化,而是先把画面“压缩”成一串简单的核心特征,再让 AI 学怎么预测这些核心特征的变化。这样一来,AI 不用关注画面的细枝末节,只抓关键规律,效率会高很多。
然而,传统 JEPA 技术打造的 “模拟器”,始终存在核心痛点,成为其落地应用的阻碍。
其一,训练易 “表示崩溃”,稳定性差。为了轻松完成特征预测任务,AI 会出现“偷懒”行为:将所有不同的视觉输入映射为几乎相同的潜特征,看似预测精准,实则这些特征毫无实际价值,这一问题被称为“表示崩溃”;其二,超参数繁琐,调参成本极高。主流端到端 JEPA 方法如 PLDM 拥有 6 个可调超参数,参数的细微变化都会导致模型性能天差地别,调参不仅需要大量的时间和计算资源,且参数无法跨任务复用,换一个任务就需要重新调试,门槛极高。
其三,计算成本高,规划运行缓慢。部分方法为避免“表示崩溃”,会依赖提前训练好的超大视觉预训练模型作为基础,虽能提升稳定性,却让模型体积臃肿、编码效率低下,AI 完成一次决策规划需要耗费大量时间。
近日,杨立昆团队发表的论文,提出了一款名为 LeWorldModel(简称 LeWM)的全新世界模型,核心解决了传统 JEPA 训练不稳定、易崩溃、超参数多、计算成本高的问题,是首个能从原始像素数据端到端稳定训练的世界模型。整个模型就 2 个核心组件、2 个损失项,15M 参数,单 GPU 几小时就能训完,只有 1 个有效可调超参数。
![]()
(上述论文)
LeWM 的组成特别精简,包括两部分。一个是编码器,用轻量的视觉模型,把摄像头拍的彩色画面,变成一串简短的核心特征,抓住画面里的关键信息;另一个是预测器,根据 “当前的核心特征以及要做的动作”,精准预测下一步的核心特征,比如 “推一下方块,它的位置特征会变成什么样”,学懂环境的运行规律。
LeWM 最核心的突破,在于用两个简单且有科学支撑的训练目标,从根本上解决了传统 JEPA 的“表示崩溃”问题,彻底摒弃了经验性技巧。其一为预测损失,是让 AI 精准预测未来的核心特征,保证学的规律有用;其二是 SIGReg 正则化,逼着 AI 把核心特征分布得均匀多样,不让它把所有画面都映射成一样的特征。
同时,LeWM 把调参的难度降到了最低,过去要调 6 个参数,现在只需要调 1 个,而且调参的方法特别简单,不用反复试错,普通人也能上手。
在实际性能测试中,研究团队在二维导航、机械臂控制、推方块等经典连续控制任务上测试了 LeWM,并与当前主流的 JEPA 方法(DINO-WM、PLDM)、行为克隆(GCBC)、离线强化学习(GCIVL、GCIQL)等方法展开对比。
在二维导航任务中,智能体需要从一个房间穿过唯一的门,导航至另一个房间的指定目标位置,考验 AI 的路径规划和环境感知能力。LeWM 在该任务中虽略逊于传统方法,但其潜特征仍能精准捕捉智能体的位置信息,后续研究证实,这一表现差异并非源于特征学习不足,而是简单环境的内在维度与 SIGReg 的正则化要求存在适配性问题,并非模型本身的性能缺陷。
![]()
图 | LeWM 在不同任务测试中的表现(上述论文)
在推方块任务中,LeWM 实现了性能突破,成功率比主流端到端方法 PLDM 高出 18%,更关键的是,仅依靠纯像素输入的 LeWM,性能竟超越了额外融合机器人本体感受信息(关节状态、运动数据)的 DINO-WM,充分证明其能从纯视觉画面中,精准捕捉到任务所需的全部关键规律,无需额外信息辅助。
除此之外,LeWM 的规划效率更是实现了质的飞跃。因为模型轻、特征简单,LeWM 做决策规划的速度,最高是传统大模型方法的 48 倍,单次规划不到 1 秒,不同任务、不同环境下速度都很稳定。
同时,LeWM 的训练稳定性远超传统方法:传统 PLDM 的训练曲线波动剧烈,像“坐过山车”,而 LeWM 的训练曲线平滑单调收敛,预测损失稳步下降,SIGReg 损失在训练初期快速下降后趋于平稳,且不同随机种子下的训练结果方差极小,可复现性大幅提升,彻底解决了传统方法“一次成功、次次翻车”的问题。
![]()
图 | LeWM 训练路径(上述论文)
最厉害的是,LeWM 造的 “模拟器”,不是单纯靠死记硬背数据,而是真的学懂了物理世界的规律。
实验中,研究人员能从 LeWM 的核心特征里,精准提取出物体位置、角度、速度这些物理量,精度比传统方法高很多;更有趣的是,给 LeWM 看三种视频:物体正常运动、物体颜色突然变了、物体突然瞬移(违反物理规律),LeWM 对瞬移会表现出明显的惊讶(预测误差骤增),对颜色变化却几乎没反应。这说明它能分清“只是外观变了”和“物理规律被打破了”,真正理解了世界的运行逻辑,而不是只记得画面的表面特征。
当然,目前 LeWM 还有一些小短板:比如现在只能做短期的决策规划,规划太久会积累误差;在特别简单的环境里,部分训练规则的效果会打折扣;训练时还需要明确的“动作标签”,比如“推方块”要标注出推的方向和力度。
针对这些问题,研究团队也指出了未来的改进方向,比如把长任务拆成短任务实现长期规划、让模型从海量自然视频里学通用物理规律、让模型自己从画面里学动作,不用额外标注。
1.https://arxiv.org/pdf/2603.19312
运营/排版:何晨龙





京公网安备 11011402013531号