当前位置: 首页 » 资讯 » 新科技 » 正文

腾讯世界模型Voyager开源!三项能力登顶斯坦福WorldScore,平均分第一

IP属地 中国·北京 编辑:柳晴雪 智东西 时间:2025-09-03 00:04:36

智东西AI前瞻(公众号:zhidxcomAI)

作者 | 江宇

编辑 | 漠影

短短半月,混元团队又向3D生成的“视野盲区”推进了一步。

智东西9月2日报道,今日,腾讯混元团队正式开源其HunyuanWorld 1.0世界模型的官方扩展模型“HunyuanWorld-Voyager”

这也是混元在近两个月内,围绕3D世界生成系统的第三次发布:7月,团队首次开源HunyuanWorld 1.0模型,支持从文本或图像生成可漫游的三维场景;8月,推出适配消费级显卡的Lite版本,降低部署门槛。

Voyager则将目标从“生成一个可看的世界”进一步推向“构建一个可走、可扩展的世界”。

它主要针对当前世界模型在长距离生成和视角一致性上的限制,首次引入RGB-D视频联合建模空间缓存机制,可根据单张图和用户设定的相机轨迹,生成结构连续、深度一致的点云视频,并可直接导出为标准3D格式。

换句话说,它不仅能把视野之外的区域合理补全,还能持续“记住”用户走过的路径,并在空间中衔接新的视角内容

根据斯坦福李飞飞团队主导的WorldScore排行榜,Voyager在当前主流世界模型中平均成绩位列第一。

体验指路:

主页:https://3d-models.hunyuan.tencent.com/world/

Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager

技术报告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

一、多种3D任务解锁,直出结果可即用

Voyager不仅继承了混元世界模型1.0的图生世界能力,还进一步解决了“用户走出原视角之后”的补全问题。其生成结果不仅可实时呈现,还能直接导出为标准3D格式(如点云、mesh),无需借助Colmap、VGGT等后处理工具。

具体来看,Voyager可应用于以下典型任务:

1、控制生成视频画面:用户可通过键盘或摇杆设定相机轨迹,系统生成对应视角的视频序列,同时保持空间结构一致性;

2、风格化编辑与控制:支持对生成视频进行画面风格调整与局部重绘,保持内容可控;

3、图生3D与视频深度估计:支持从图像生成结构完整的3D物体,也可对普通视频进行深度补全,用于三维理解与后续建模;

▲图生3D物体

▲视频深度估计

二、引入新架构,空间建模能力显著增强

混元世界模型-Voyager架构是对混元世界模型1.0新视角内容的补全,引入了“世界一致视频扩散”与“长距离世界探索”两大核心机制。

此前,混元世界模型1.0模型已支持从文本或图像生成可漫游的三维世界,并输出标准3D格式,兼容游戏引擎。但当用户“走出”原始画面后,生成范围会受限。Voyager解决的正是这类遮挡与长距离视角问题。

1、世界一致的视频扩散

目前,可控视频生成模型已经具备构建“世界模型”的潜力,但这类“图生视频”方案多停留在RGB模态,难以还原三维结构,限制了交互性和空间一致性。相比之下,显式生成3D场景(如点云、Mesh)可用于更真实的空间重建,但受限于训练数据和计算资源,难以在大规模场景中泛化。

混元世界模型Voyager结合了视频生成与显式3D建模两类方法,支持在用户设定相机轨迹和初始场景的条件下,生成空间一致的RGB-D视频序列,并可直接导出为点云格式的三维数据。

Voyager首次在视频生成中引入RGB+Depth的双模态联合建模,形成“点云视频”:

1、输入:图片+用户指定的相机轨迹;

2、输出:RGB-D视频序列,每帧均具备像素级深度信息;

3、拼接机制:先在空间维度上拼接RGB和D(Depth),再在特征维度上结合两模态信息,用VAE框架学习RGB-D的生成规律;

4、训练结构:由双流模块与控制模块组成,基于Hunyuan-Video DiT模型进行训练。

此外,为支撑训练需求,混元团队构建了一套可扩展的数据构建引擎,可自动对任意输入视频估计相机姿态与时序信息,摆脱人工标注依赖,批量生成可用于RGB-D建模的训练样本。基于该引擎,Voyager融合真实视频与虚幻引擎合成数据,构建了包含超过10万段视频片段的大规模训练集。

这种机制让Voyager具备“原生3D记忆能力”,无需后处理重建步骤即可生成空间一致、格式统一的3D点云。

2、长距离世界探索

Voyager通过提出一种具备空间一致性的可拓展世界缓存机制,突破了长距离世界探索的限制。

1、先生成一个初始场景点云缓存(来自HunyuanWorld 1.0);

2、再将缓存投影至用户设定的相机视角;

3、利用扩散模型生成新视角画面,并不断更新缓存,最终形成一个支持任意相机轨迹的闭环系统。

这一方法兼顾空间结构记忆、视角可控与多视图一致性,意味着用户可以像玩第一人称游戏一样“自由走”,所到之处都能被系统填补,并保持几何结构一致。

三、三项实验:验证空间一致性与重建质量

为全面验证HunyuanWorld-Voyager的性能表现,混元团队围绕视频生成质量、三维场景重建能力以及世界生成能力三个方向进行了系统实验,覆盖RGB视频质量、几何一致性与长距离空间表达等多个维度。

1. 视频生成:相似性与结构性指标均领先

在视频生成任务中,混元团队选取RealEstate10K数据集中的150个视频片段,并与四种开源的摄像头可控视频生成方法进行对比。

结果显示,Voyager在全部指标上均优于现有方法。

定性分析中,Voyager能够生成更为多样、结构清晰的视频帧,尤其在细节区域的保留上表现出色。例如在样例中,其他方法在相机大幅移动时易产生α影或结构塌陷,而Voyager仍能准确还原输入图像中的产品边界与材质细节。

2. 场景重建能力:融合RGB-D,三维结构更准确

在场景生成任务中,Voyager进一步验证了其RGB-D视频序列对三维结构重建的支持能力。混元团队使用VGGT方法作为后处理统一流程,对比核心模型的RGB视频生成后能否支持高质量点云还原。

结果表明,即便在仅使用RGB重建的场景下,Voyager生成的视频在几何一致性方面也优于其他方法;而一旦加入原生深度信息初始化点云,重建精度进一步提升。

在3D Gaussian Splatting任务中,Voyager成功还原了复杂结构(如吊灯)的完整形状,而其他方法在边缘结构与局部细节上普遍存在缺失。

3. 世界生成能力:跨域泛化与长距离空间表达能力增强

在更具挑战性的WorldScore静态基准测试中,Voyager同样展现出领先能力。该基准评估模型在开放域条件下的世界建构能力,尤其关注光学运动控制能力与空间一致性表现。

Voyager在该任务中获得最高平均分,验证了其空间一致建模机制具备跨数据域的泛化能力。

同时,由于生成条件一致,Voyager在保证一致性的前提下,所驱动的相机运动幅度大幅超过对比模型,其对于长路径建模与多视角连续性控制更具备优势。

结语:让生成的世界走得更远

从静态场景到可控漫游,再到具备深度信息与空间拓展,Voyager补足了混元世界模型在空间连续性上的一块关键能力。

从一段文字、一张图生成一个初始场景,再根据用户设定的相机轨迹拓展新视角内容,这种“边走边生成”的逻辑,正在成为AI理解空间的另一种可能。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。