当前位置：首页 » 资讯 » 新科技 » 正文

杨立昆发布史上最“轻”世界模型，单GPU可训，规划速度提升48倍

IP属地中国·北京 DeepTech深科技 时间：2026-03-24 18:22:17

在通往通用智能（AGI）的道路上，世界模型（World Model）正被视为最关键的下一步。
通俗来说，世界模型就像是给 AI 装上了一个“大脑模拟器”。它让机器人不再仅仅是机械地执行指令，而是具备了在想象空间中预演未来的能力。当一个机械臂试图抓取杯子时，世界模型允许它在真正动手前，先在脑海中模拟不同动作可能导致的结果。
为了构建这种模型，图灵奖得主杨立昆提出了联合嵌入预测架构（JEPA）。该方法不直接让 AI 预测复杂的画面变化，而是先把画面“压缩”成一串简单的核心特征，再让 AI 学怎么预测这些核心特征的变化。这样一来，AI 不用关注画面的细枝末节，只抓关键规律，效率会高很多。
然而，传统 JEPA 技术打造的 “模拟器”，始终存在核心痛点，成为其落地应用的阻碍。
其一，训练易 “表示崩溃”，稳定性差。为了轻松完成特征预测任务，AI 会出现“偷懒”行为：将所有不同的视觉输入映射为几乎相同的潜特征，看似预测精准，实则这些特征毫无实际价值，这一问题被称为“表示崩溃”；其二，超参数繁琐，调参成本极高。主流端到端 JEPA 方法如 PLDM 拥有 6 个可调超参数，参数的细微变化都会导致模型性能天差地别，调参不仅需要大量的时间和计算资源，且参数无法跨任务复用，换一个任务就需要重新调试，门槛极高。
其三，计算成本高，规划运行缓慢。部分方法为避免“表示崩溃”，会依赖提前训练好的超大视觉预训练模型作为基础，虽能提升稳定性，却让模型体积臃肿、编码效率低下，AI 完成一次决策规划需要耗费大量时间。
近日，杨立昆团队发表的论文，提出了一款名为 LeWorldModel（简称 LeWM）的全新世界模型，核心解决了传统 JEPA 训练不稳定、易崩溃、超参数多、计算成本高的问题，是首个能从原始像素数据端到端稳定训练的世界模型。整个模型就 2 个核心组件、2 个损失项，15M 参数，单 GPU 几小时就能训完，只有 1 个有效可调超参数。

（上述论文）
LeWM 的组成特别精简，包括两部分。一个是编码器，用轻量的视觉模型，把摄像头拍的彩色画面，变成一串简短的核心特征，抓住画面里的关键信息；另一个是预测器，根据 “当前的核心特征以及要做的动作”，精准预测下一步的核心特征，比如 “推一下方块，它的位置特征会变成什么样”，学懂环境的运行规律。
LeWM 最核心的突破，在于用两个简单且有科学支撑的训练目标，从根本上解决了传统 JEPA 的“表示崩溃”问题，彻底摒弃了经验性技巧。其一为预测损失，是让 AI 精准预测未来的核心特征，保证学的规律有用；其二是 SIGReg 正则化，逼着 AI 把核心特征分布得均匀多样，不让它把所有画面都映射成一样的特征。
同时，LeWM 把调参的难度降到了最低，过去要调 6 个参数，现在只需要调 1 个，而且调参的方法特别简单，不用反复试错，普通人也能上手。
在实际性能测试中，研究团队在二维导航、机械臂控制、推方块等经典连续控制任务上测试了 LeWM，并与当前主流的 JEPA 方法（DINO-WM、PLDM）、行为克隆（GCBC）、离线强化学习（GCIVL、GCIQL）等方法展开对比。
在二维导航任务中，智能体需要从一个房间穿过唯一的门，导航至另一个房间的指定目标位置，考验 AI 的路径规划和环境感知能力。LeWM 在该任务中虽略逊于传统方法，但其潜特征仍能精准捕捉智能体的位置信息，后续研究证实，这一表现差异并非源于特征学习不足，而是简单环境的内在维度与 SIGReg 的正则化要求存在适配性问题，并非模型本身的性能缺陷。

图 | LeWM 在不同任务测试中的表现（上述论文）
在推方块任务中，LeWM 实现了性能突破，成功率比主流端到端方法 PLDM 高出 18%，更关键的是，仅依靠纯像素输入的 LeWM，性能竟超越了额外融合机器人本体感受信息（关节状态、运动数据）的 DINO-WM，充分证明其能从纯视觉画面中，精准捕捉到任务所需的全部关键规律，无需额外信息辅助。
除此之外，LeWM 的规划效率更是实现了质的飞跃。因为模型轻、特征简单，LeWM 做决策规划的速度，最高是传统大模型方法的 48 倍，单次规划不到 1 秒，不同任务、不同环境下速度都很稳定。
同时，LeWM 的训练稳定性远超传统方法：传统 PLDM 的训练曲线波动剧烈，像“坐过山车”，而 LeWM 的训练曲线平滑单调收敛，预测损失稳步下降，SIGReg 损失在训练初期快速下降后趋于平稳，且不同随机种子下的训练结果方差极小，可复现性大幅提升，彻底解决了传统方法“一次成功、次次翻车”的问题。

图 | LeWM 训练路径（上述论文）
最厉害的是，LeWM 造的 “模拟器”，不是单纯靠死记硬背数据，而是真的学懂了物理世界的规律。
实验中，研究人员能从 LeWM 的核心特征里，精准提取出物体位置、角度、速度这些物理量，精度比传统方法高很多；更有趣的是，给 LeWM 看三种视频：物体正常运动、物体颜色突然变了、物体突然瞬移（违反物理规律），LeWM 对瞬移会表现出明显的惊讶（预测误差骤增），对颜色变化却几乎没反应。这说明它能分清“只是外观变了”和“物理规律被打破了”，真正理解了世界的运行逻辑，而不是只记得画面的表面特征。
当然，目前 LeWM 还有一些小短板：比如现在只能做短期的决策规划，规划太久会积累误差；在特别简单的环境里，部分训练规则的效果会打折扣；训练时还需要明确的“动作标签”，比如“推方块”要标注出推的方向和力度。
针对这些问题，研究团队也指出了未来的改进方向，比如把长任务拆成短任务实现长期规划、让模型从海量自然视频里学通用物理规律、让模型自己从画面里学动作，不用额外标注。
1.https://arxiv.org/pdf/2603.19312
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

央地共建！全国首个具身智能工程机器人创新中心在成都揭牌

西门子：工业高标准下，AI对软件业务冲击有限

“HALO光环+工业AI”双重护体老牌工业巨头西门子的护城河愈发坚挺

拒多家车企邀约，前理想端到端负责人夏中谱加入无界动力｜36氪独家

科学与健康|电子果蝇“活”了 “数字生命”离我们还有多远？

苹果宣布WWDC全球开发者大会将于北京时间6月9日举行

全站最新

央地共建！全国首个具身智能工程机器人创新中心在成都揭牌

西门子：工业高标准下，AI对软件业务冲击有限

“HALO光环+工业AI”双重护体老牌工业巨头西门子的护城河愈发坚挺

拒多家车企邀约，前理想端到端负责人夏中谱加入无界动力｜36氪独家

热门推荐

Boss直聘等在嘉兴成立创业投资合伙企业

康迪科技启用全新品牌LOGO，未来五年战略发展纲领曝光

电动汽车减少汽车行业石油需求消息称去年每天少消耗170万桶

曝华为PuraX系列阔折叠手机将上新 4月底推全新机型

汽车之家多平台账号被禁止关注官方回应即将恢复

脉脉林凡：企业在AI人才布局上最容易犯两类错误

消息称苹果下一任CEO热门人选是iPadOS诞生幕后重要推手

丹佛斯报告提出数据中心从“能耗大户”迈向“新型能源资产”的系统性方案

央地共建！全国首个具身智能工程机器人创新中心在成都揭牌

西门子：工业高标准下，AI对软件业务冲击有限

“HALO光环+工业AI”双重护体老牌工业巨头西门子的护城河愈发坚挺

拒多家车企邀约，前理想端到端负责人夏中谱加入无界动力｜36氪独家

科学与健康|电子果蝇“活”了 “数字生命”离我们还有多远？

科学与健康|电子果蝇“活”了 “数字生命”离我们还有多远？

苹果宣布WWDC全球开发者大会将于北京时间6月9日举行