
![]()
“具身智能爆发第三年,世界模型凝聚了哪些共识?”
作者丨张进 吴彤 梁丙鉴 刘欣 齐铖湧
编辑丨林觉民 马晓宁
13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。
这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥见当下围绕着世界模型的研究是多么广泛与丰富。
目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。
浙江大学研究员彭思达:面向具身智能的通用空间感知技术
![]()
在“世界模型”分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院“百人计划”研究员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。
团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimation),即让机器人知道自己在空间中的位置;二是深度估计(Depth Estimation),使机器人了解场景中各物体与自身的距离;三是物体运动估计(Object Motion Estimation),让机器人感知世界的运动状态。
这些底层空间感知技术有何作用?首先,它们能为机器人提供关键的决策信息。例如,无人机在空间中需要先知道自身位置、与场景目标的距离,才能实现基础避障;进而还需了解目标物体的运动情况,才能进行追踪。基于从场景中获取的三维空间信息,机器人的行为规划便能得到有力支持。
其次,这些技术可用于生成训练数据。当前具身智能领域的一大难题是数据匮乏。以往有人尝试仿真或遥操获取数据,但遥操数据虽好却难以规模化扩展,而仿真技术目前仍与真实世界存在较大差距。
彭思达提出,其实可将人类视作一种特殊形态的机器人——具备完整的身体结构与行为模式。若能发明一种数据采集设备,将人类日常行为完整记录下来,就相当于获取了机器人所需的行为数据,从而可用于训练人形机器人。这其中便涉及相机定位、深度估计与物体运动估计等技术。
相机定位方面,最传统经典的方法是Colmap。该方法从图像中提取特征并进行两两匹配,再通过增量式运动恢复结构(SfM)得到相机位置。最终每张图像对应一个相机位置,并共同生成三维点云,形成经典的三维重建流程。
然而,该流程目前面临的挑战在于图像匹配。团队发现,传统匹配方法在恶劣环境或视角差异较大的情况下效果不佳,会影响后续相机位姿估计的准确性。
针对这一问题,彭思达所在实验室于2021年提出一种新方法:不再依赖传统匹配方式,而是直接使用Transformer大模型进行图像匹配。具体而言,将两张图像输入LoFTR模型以提取稠密特征,这些特征之间即使在弱纹理区域也能实现良好的匹配。
深度估计是通用空间感知的关键组成部分。去年,彭思达团队在提升深度估计能力方面取得了三项进展,其中之一是“Pixel-Perfect-Depth”思路。
具身智能需要深度估计,是因为准确的深度信息能提升机器人的决策性能。但现有方法普遍在物体边缘存在“飞点”问题:判别式模型(如Depth Anything)倾向于预测“折中值”以最小化损失,从而导致飞点;生成式模型(如Marigold)虽能从理论上建模多峰深度分布,但因使用VAE进行压缩,同样会产生飞点。
团队从生成式模型出发,提出了 Pixel-Perfect-Depth 的解决思路:首先移除VAE,直接在像素空间进行优化,以避免VAE带来的信息损失。然而,没有VAE后模型需要更全局的视野,因此他们将语言特征整合到DiT模型中,发现这能显著增强模型对图像的整体理解能力。
将人类行为数据转化为有效训练数据,是当前具身智能发展的关键。这需要获取深度信息、相机运动以及人类行为语义轨迹,而语义轨迹的获取又依赖于三维跟踪。
此前已有方法使用时序匹配进行跟踪,例如Google的CoTracker:先初始化一组二维像素点,再利用Transformer迭代优化这些点的轨迹。但该方法仅在二维层面进行跟踪,容易因相邻区域的干扰而丢失目标,效果受限。
彭思达团队的思路是将二维图像反投影至三维空间,做 3D tracking。具体做法是:输入图像并反投影至三维,获得三维特征后,在三维空间中初始化一条三维轨迹,再利用Transformer对该轨迹进行优化,从而实现更鲁棒的跟踪效果。该方法被命名为SpatialTracker。
腾讯ARC Lab高级研究员胡文博:Towards 3D-aware Video World Models
![]()
接下来,腾讯 ARC Lab 高级研究员胡文博带来了《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models )的演讲主题。
胡文博表示,2024年初 Sora 震撼面世,虽然 3D 一致性不错,但对于做三维重建的工作者来说,视频细节里的垂直性和平整性还有空间。
同时他意识到,Video diffusion 有潜力作为世界模型的一种表示,但视频仍处于 2D 空间,而我们的世界是 3D 的,因此如何实现 3D 感知的视频世界模型,非常值得探索。
基于这样的观测,胡文博想要实现以 3D-aware 出发的 video world models。
胡文博和团队决定在重建和生成两方面发力,重建方面,他展示了包括 2024 年开始陆续做的 video depth (DepthCrafter),从视频中估计点云以开展 4D 重建任务(GeometryCrafter),以及从单目视频中重建 motion 的“Holi4D”等工作。
现场,胡文博并未过多展开从开放世界 2D 观测重建 3D 信息内容,而是把分享重点放在了以下部分。
胡文博先分享了静态场景探索任务 ViewCrafter,借助重建能力生成 3D 点云,以其为条件控制 video diffusion。胡文博表示,这部分的探索生成的图像可更新点云实现更远探索,是早期世界模型的 memory 机制。
这些把 3D 信息用于视频扩散,单图探索及点云更新应用,让现场观众们非常感兴趣。
接下来,胡文博还展示了另一部分重要的 work:TrajectoryCrafter。
这是胡文博在 ICCV 25 的 Oral 工作,其核心是让用户通过单目视频实现对背后 4D 世界的探索,延续 3D-aware 思路,将重建的 3D 信息和原始视频注入扩散过程,现场展示了指定相机 pose 的动态视频、子弹时间特效和复现 Dolly Zoom 特效,还原度非常高。
不仅如此,胡还展示了 VerseCrafter 模型实现场景交互,在单图输入重建几何基础上,标注可移动物体数据标注流程,可以实现固定相机、只动物体、相机物体同动等交互结果,现在展示了生成的非常逼真的观测结果。
最后,还展示了多个玩家或 agent 进行联机探索场景的 demo。
胡文博的分享,展示了对世界模型交互方式的新思考,更是让大家的世界模型应用场景有了更充足的想象空间。
西湖大学助理教授修宇亮:数字人重建,慢慢都会变成基础模型的微调任务
![]()
围绕数字人建模,西湖大学助理教授,远兮实验室负责人修宇亮做了主题演讲《走出蜡像馆,交互新世界:开拓三维数字人研究新疆域》,分享了其关于高精度数字人重建的三项最新进展。
由于兼具相机位姿变化和人物动作变化的特点,以日常图像作为三维重建任务素材时,长期以来面临着脏数据的困扰。传统解决方案为对图像进行文本编码、文字生成 3D 模型两步走。代价是效率,DreamBooth 和 SDS(Score Distillation Sampling)漫长的优化流程,导致单个数字人建模任务需要 3 至 4 个小时。
远兮实验室的最新成果 UP2You,将上述时间从 4 小时压缩到了 1.5 分钟。其核心思想是将脏数据直接转化成对后续重建友好的多视角正交图片,在此基础上套用已有的多视角重建算法,实现提效。
相较于传统方案,UP2You 最大的优势是,其重建质量可以随输入图片数量的增加而稳定变好,理论上可以恢复出更好的几何结构和纹理。由此日常图像作为脏数据的弊端得以被规避,数据量的优势同时被放大。“多多益善”,修宇亮教授总结,“无论图片有多脏,这个方案只要保证图片源源不断。”
修宇亮教授分享的第二项工作名为 ETCH,旨在根据高精度穿衣人体模型,得到解剖学上正确的内部人体结构。由于此前的尝试将最外层服装视为人体皮肤,导致建模结果普遍偏胖。而 ETCH 通过向量,定义了衣服和皮肤之间的厚度关系,从而建模了更准确的内部人体结构。
在今年的 ICCV 上,ETCH 获评 Highlight Paper。值得注意的是,ETCH 方案首先将穿衣人体模型采样为点云,每个点指向内部人体的一个向量。尽管衣服存在非刚体形变,但修宇亮表示,在此类任务中,不完美的旋转等变性仍可以大量减少训练所需数据。这也是ETCH工作的创新点之一,它或为首个通过向量定义衣服和人体之间关系的尝试。
最后一项工作名为 Human3R,旨在实现人物及场景的实时动态呈现。“你很难只从动作就看懂人在做什么”,修宇亮教授解释,“但如果把场景也给到你,语义就相对清晰。”
据介绍,Human3R在同时实现场景重建和人体状态预测、追踪的基础上,可以做到实时 15 FPS,8GB 显存占用。这意味着仅需一张商用 GPU,即可实现 SOTA 级性能。
为了实现这一点,Human3R 保留了 CUT3R 的 3D 重建 backbone,以保留其对场景的几何重建能力,同时新增了一条分支,用于从场景中显式提取人体点云,并进一步估计该点云所对应的人体姿态。同时,Human3R 还借鉴了 VPT(Visual-prompt Tuning)策略,以实现高效微调。
展望未来,修宇亮教授最后分享了自身对于数字人技术的观察。更强大的通用 3D 重建模型正在让越来越多数字人重建任务迎刃而解,人体姿态重建,只需要在具有场景感知能力的视觉基础模型上进行微调。“数字人的重建任务,慢慢都会变成基础模型的微调任务。”修宇亮教授指出。
中山大学计算机学院青年研究员,拓元智慧首席科学家王广润博士:创新基础模型,强化物理世界建模
![]()
随后登场的是,中山大学计算机学院青年研究员、拓元智慧首席科学家王广润博士。他带来了《创新基础模型,强化物理世界建模》的主题演讲,王广润博士长期专注于新一代 AI 架构、大物理模型与世界模型等方向。
在演讲中,王广润博士首先解释了物理空间智能的概念。10 年前,端到端是一个非常火的词,他认为,如今的物理空间智能也面临着“感知-规划-执行”端到端的实现,这就需要非常多的数据去训练,但高质量数据匮乏,难以学习到对齐物理世界的可靠执行策略。
于是,王广润博士的团队就在推理计算上提出了全局迭代生成,相比于顺序生成,全局迭代生成有三种优势:全局性、渐进精化;快速性以及便于多模态统一。
王广润博士还分享了三种传统方法,都存在着诸多不足。他们提出了一种全新的模型——原位 Tweedie 离散扩散模型,这个模型可以在 one-hot 单纯形上实现严格的扩散过程,直接在扩散空间中去噪,而不是依赖嵌入或掩码,也不依赖马尔科夫性。
而且,在去噪的过程可以看出,随着迭代的变化,token 的语义能够从一开始t较高时的混乱噪声逐步随着t降低去噪为一个稳定的语义表征。
有了框架之后,就可以开始训练模型了。王广润博士表示,VLA模型存在几项瓶颈:泛化能力不足、动作控制粗糙、建模范式矛盾。所以他们构建了新的方法——E0 具身大模型,在很多数据集和真机任务上都表现突出,并显示出了强大的泛化性能。
王广润博士还分享了一个比喻:VLA =“你在监控中心,通过看不同房间的监控视频,遥操不同房间的机械臂”。其实人的泛化能力已经很强了,但在新环境下,还是需要在线简单学习。据此,王广润博士提出了物理建模与空间建模的解耦。
最后,王广润博士表示自己的实验室做出了一个 24 小时运行无人机化物理智能评测平台,提供多种远程接口,无痛测评 VLA。
王广润博士的报告从框架、模型到基准形成完整闭环,为 AI 从虚拟数字空间走向真实物理世界提供了关键技术支撑。
香港中文大学(深圳)助理教授韩晓光—— 3DAIGC:人类安全感之战
![]()
韩晓光教授在此次大会梳理了三维生成技术的发展脉络与未来挑战,并深入探讨了在视频生成与 AI 大模型时代,三维技术所扮演的关键角色及其不可替代的价值。
韩晓光教授表示,三维生成技术在过去十年经历了飞速发展。早期阶段属于“类别限定”时代,需为椅子、车辆、人脸等不同物体分别训练独立模型。随着 Dreamfusion 等工作的出现,进入了“开放世界”时代,实现了文本生成 3D 模型,但生成速度较慢。当前已进入大模型时代,以 Adobe 的大型重建模型、混元 3D 等为代表,单图生成 3D 模型的效果和速度均已大幅提升。
韩晓光教授指出了三维生成的三大趋势:一是更精细,追求几何细节的极致表现;二是更结构化,生成模型可自动拆解为部件,以适配游戏、制造等行业需求;三是更对齐,确保生成的三维模型在结构上与输入的二维图像精确对应,避免细节错乱。
然而,视频生成(如Sora)的爆发式发展,对三维内容创作构成了“存在性”冲击。其核心矛盾在于,传统的三维流程复杂,但最终产出是视频;而 Sora 等模型可直接从文本生成视频,跳过了所有三维环节。这引发了行业对三维技术必要性的深刻质疑。
对此,韩晓光教授分析,视频生成当前存在细节可控性差、长程记忆缺失等核心难题,这为三维技术留下了关键价值空间。他提出了四种可能的结合路径:一是纯 2D 的端到端模型;二是将 3D 仿真作为“世界模拟器”,先生成 CG 视频再使其逼真化;三是将 3D 信息作为额外控制信号输入生成网络;四是利用 3D 合成数据来增强视频模型的训练。
在探讨“世界模型是否需要 3D ”时,韩晓光教授认为,世界模型的核心目标是数字化世界规律以实现预测。它可分为三类:服务于人类共同体的宏观模型、服务于个人探索的虚拟世界模型,以及服务于自动驾驶、具身智能等机器的具身世界模型。他强调,无论是为了满足 VR/AR 中“可交互”所需的触觉反馈,还是为机器人提供仿真训练环境,或是实现从虚拟到实体的智能制造,3D 都是不可或缺的基石。
演讲最后聚焦于AI时代的“安全感”与“可解释性”问题。韩晓光教授指出,当前AI领域过度追求性能,但以“端到端”和“潜变量”为代表的“黑箱”模型,因其不可解释性而带来了不安全感。人类能直观理解 3D/4D 世界,而高维的潜变量则超出了我们的认知范围。因此,3D 作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径。真正的安全感,源于模型效果与可解释性之间的平衡,而三维技术在其中将扮演至关重要的角色。
圆桌环节:有关于世界模型的展望
![]()
圆桌环节,世界模型主题圆桌论坛在赵昊教授的主持下正式开启。彭思达、胡文博、修宇亮、王广润、韩晓光几位嘉宾齐聚一堂展开了关于世界模型展望的探讨。
彭思达先从“技术替代问题”切入,提到关于世界模型的发展,不能只看算法提升,还必须关注硬件的迭代,同时,彭思达在motion方面也提出了一些见解,他结合 DeepMind 最新工作提出bet,3D tracking 在2027年会慢慢收敛,与此同时,自监督学习也会出现巨大突破。
胡文博分享了对世界模型、视频世界模型和空间智能之间的差异,他认为让模型理解空间还需要探索,他更致力于做一个给个人用的世界模型,让使用者可以体验一些不知道的世界,或者虚构的世界,甚至是他人的世界,这是非常有意义的。
王广润认为世界模型有一个非常标准的应用,就在交互层面,现在已经能从图输出很精简的3D,王广润表示很期待从PI0到未来的PI1的过程。
韩晓光则从3D和视频模型之间的联系出发,认为2026年做好3D的骨架和可移动部分对具身智能依旧是非常有用的,并且呼吁更多人继续做3D方向的探索。
修宇亮则针对解决数字人的情绪价值问题方向,让多模态表征统一的角度展开表达,他提出2D和3D数字人无定式,以用户开心为目标,但需要解决情绪价值难以量化、缺乏基准的问题。
关于世界模型的重建和生成工作,嘉宾们各抒己见,最终主持人赵昊呼吁这个领域需要共识和合作,一个关于“世界模型”的技术联盟呼之欲出。





京公网安备 11011402013531号