![]()
机器之心编辑部
近期,围绕「世界模型」这一方向,有两项工作受到较多关注。
一篇是来自 Yann LeCun 团队的LeWorldModel,尝试以更简洁的 JEPA 实现从像素端到端训练的世界模型,在降低训练复杂度的同时,验证了潜在空间中对物理结构的刻画能力。
![]()
另一篇是清华大学团队的Fast-WAM,则从应用角度出发,重新审视当前主流 World Action Model(WAM)的设计范式,探讨「是否真的需要在推理阶段显式生成未来」这一关键问题,并给出了一种更高效的替代路径。
![]()
两项工作分别从「如何更简洁地学习世界」与「是否需要在推理中反复想象世界」两个维度,对当前世界模型的主流思路进行了补充与修正,也为理解这一方向的技术演进提供了不同切入点。
谢赛宁也建议将这两篇论文结合起来阅读。
![]()
让我们一起看看这两项工作的具体内容。
世界模型在「做减法」:
从复杂系统到最小闭环
![]()
论文标题:LeWorldModel: Stable End-to-End JEPA from Pixels论文地址:https://le-wm.github.io/项目地址:https://arxiv.org/pdf/2603.19312v1
联合嵌入预测架构(JEPA)为在紧凑的潜在空间中学习世界模型提供了一种颇具吸引力的框架。然而,现有方法仍然较为脆弱,往往依赖复杂的多项损失函数、指数滑动平均(EMA)、预训练编码器或额外的辅助监督,才能避免表征坍塌。
在本工作中,研究团队提出了 LeWorldModel(LeWM),这是首个能够从原始像素端到端稳定训练的 JEPA 模型,仅使用两个损失项:下一步嵌入预测损失,以及用于约束潜在嵌入服从高斯分布的正则项。相比目前唯一的端到端替代方案,该方法将可调的损失超参数数量从六个减少到一个。
![]()
LeWM 仅约 1500 万参数,可在单张 GPU 上数小时内完成训练;在规划速度上,相比基于基础模型的世界模型最高可提升约 48 倍,同时在多样的 2D 与 3D 控制任务中仍保持具有竞争力的表现。除了控制任务之外,我们还通过对物理量的探测实验表明,LeWM 的潜在空间能够编码有意义的物理结构。进一步的「惊讶度」评估显示,该模型能够可靠地检测出物理上不合理的事件。
![]()
方法
这篇论文的方法可以概括为一个在潜在空间中完成建模与决策的端到端世界模型框架。
具体而言,LeWM 由两个模块组成:视觉编码器和动力学预测器。编码器将原始像素观测映射为低维潜在表示;预测器则基于当前表示和动作,预测下一时刻的潜在状态,从而刻画环境的演化过程。整个模型从原始像素出发联合训练,不依赖预训练特征或额外组件。
训练采用离线、无奖励的设置,仅使用观测序列与动作。目标函数包括两部分:一是相邻时间步之间的嵌入预测损失,用于学习可预测的表示;二是分布正则项,通过约束潜在表示在随机方向上的投影接近高斯分布,避免表征坍塌。这一设计在不引入额外稳定技巧的情况下,实现了端到端训练。
在获得潜在动态模型后,决策阶段直接在潜在空间中进行。给定当前观测和目标观测,模型将其编码为潜在表示,并通过预测器对候选动作序列进行前向展开(rollout),选择最终状态最接近目标的序列(通过交叉熵方法优化)。实际执行中采用模型预测控制(MPC),每次仅执行部分动作,再基于新观测重新规划,以减少误差累积。
![]()
整体来看,LeWM 将表示学习、动态建模与规划统一在同一潜在空间中,形成从像素输入到动作输出的闭环过程。
还需要「想象未来」吗:
WAM 范式的再审视
![]()
论文标题:Fast-WAM: Do World Action Models Need Test-time Future Imagination?论文地址:https://yuantianyuan01.github.io/FastWAM/项目地址:https://arxiv.org/abs/2603.16666
世界动作模型(World Action Models, WAMs)因能够显式建模视觉观测在动作作用下的演化过程,被认为是具身控制中替代 VLA 模型的一种有前景的方案。
现有大多数 WAM 采用「先想象、再执行」的范式,但由于需要进行迭代式的视频去噪,这在测试阶段会带来较高的延迟。同时,一个关键问题仍未被回答:显式的未来想象,是否真的是实现强动作性能所必需的?
本文探讨:WAM 在测试阶段是否必须进行显式的未来想象,还是其性能提升主要来源于训练阶段的视频建模能力。
为此,研究团队提出了 Fast-WAM,一种在训练中保留视频协同训练,但在测试时跳过未来预测的新型 WAM 架构。在多组对照实验中,Fast-WAM 在性能上依然可以与「先想象再执行」的模型竞争,而一旦移除视频协同训练,性能则会显著下降。
![]()
实验结果表明,在无需具身预训练的情况下,Fast-WAM 在 LIBERO、RoboTwin 以及真实世界的毛巾折叠任务中均取得了具有竞争力的表现。同时,其推理延迟仅为 190 毫秒,可实现实时运行,相比现有「先想象再执行」的 WAM 设计提速超过 4 倍。
方法
这篇论文的方法核心,是将「训练阶段学到的能力」和「测试阶段是否显式调用这些能力」进行拆分。
![]()
Fast-WAM 在结构上仍属于标准世界模型:输入视觉观测和动作,学习环境随动作变化的动态。但关键区别在于,它将视频建模仅保留在训练阶段,而不在推理时显式展开。
在训练过程中,模型通过视频协同训练学习从当前观测和动作预测未来视觉变化,从而在内部形成对环境演化的表征。这一点与传统「先想象再执行」的方法一致。
但在测试阶段,Fast-WAM 不再生成未来视频轨迹,也不进行迭代去噪,而是直接基于当前观测输出动作。换句话说,原本需要在推理时显式展开的「未来想象」,被转化为训练阶段隐式学到的能力。
实验表明,只要保留训练阶段的视频建模能力,即使移除测试时的显式想象过程,模型性能仍能保持;反之,如果缺少视频建模能力,性能则会明显下降。这说明,WAM 的关键不在于推理时是否生成未来,而在于训练过程中是否学到了环境动态。
更多技术细节请参见原论文。





京公网安备 11011402013531号