智东西AI前瞻(公众号:zhidxcomAI)
作者 | 江宇
编辑 | 漠影
智东西AI前瞻7月27日报道,今日,腾讯混元正式发布3D世界模型1.0,并同步开源模型能力。
这是腾讯首次将3D内容生成从“物体级”扩展至“世界级”,用户只需一句话或一张图,即可生成一个360度沉浸式、可漫游、可编辑的三维虚拟世界。
腾讯混元3D团队在接受智东西等媒体采访时称,世界模型1.0兼顾生成质量与工业应用可落地性,也初步应用于游戏开发、具身智能仿真、XR内容制作等场景。近日,该模型也被AI设计Agent平台Lovart等正式接入。
体验指路:https://3d.hunyuan.tencent.com/sceneTo3D
Github项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
项目主页:https://3d-models.hunyuan.tencent.com/world/
Hugging Face、模型地址:https://huggingface.co/tencent/HunyuanWorld-1
一、从资产到世界,3D生成拓展到“可漫游空间”
混元3D世界模型1.0是腾讯首次将AI生成能力从单个3D物体,扩展至整套可编辑、可导出的360度虚拟世界构建流程。
▲效果图(图源:混元官方)
该模型支持文本与图像输入,用户只需一句描述或一张参考图,即可生成一个具备空间一致性、支持自由漫游的3D场景。
与传统2D全景生成或静态3D模型不同,混元3D世界模型具备“能走、能用、能改”的三重特点:
1、生成内容为完整封闭场景,用户不仅可原地环视,还能通过键盘控制视角、方向,在空间中自由行走、漫游。
2、生成结果支持标准3D Mesh格式输出,兼容Unity、Unreal、Blender等主流引擎,可直接用于游戏原型验证、动画制作或仿真建模。
▲效果图(图源:混元官方)
3、该模型基于自研的语义层次化算法,将场景结构拆解为前景物体、地形地貌与天空贴图等模块,用户可对局部元素进行结构级修改。
▲混元世界模型1.0方法流程图(图源:混元官方)
二、从一张图到一个空间,混元怎么把世界“拼”出来?
混元团队在架构设计上引入了3D与2D融合方案:前景采用高保真3D建模,中景通过多视角补齐完成空间闭合,远景与天空则以图像方式渲染,实现兼顾细节质量与生成效率的折中。
为了提升模型的泛化能力与稳定性,该系统目前仅支持风格化图片、简洁构图、平视视角等输入,能够在有限样本下准确解析语义意图。
此外,混元还对模型的生成质量进行了定量评估,在纹理细节、美学水准、指令遵循等维度全面超越当前SOTA开源模型。
▲(图源:混元官方)
目前,该系统已支持初步的漫游交互与局部模型编辑,后续将拓展动作层建模能力,引入更强的物理仿真模块与跨平台输出标准。
三、体验:全景能看,场景能走,还能动手改
1、360度全景图:快速生成,初具细节
文生场景在不包含人物的前提下,智东西点击系统内“随机”按钮,系统生成如下指令:“硅基树木与荧光植物,浮空孢子囊飘散,生物朋克生态,阿凡达电影概念艺术,紫蓝渐变色调。”
效果如下:
模型基本契合设定场景风格,尤其在近景处理上表现出一定细节感,如地表草根清晰可辨。不过,整体细节仍略显空泛,若未来支持对话式增补,有望进一步提升沉浸感与编辑灵活性。
图生场景▲图片由AI生成。
智东西上传一张风格相近的参考图后,系统在理解与还原方面的表现显著提升,色彩、构图和场景一致性均优于文生模式。
2、漫游场景:可操作,可导出
文生场景智东西编写了一段灵感源自“塞尔达传说”的复杂指令,要求构建一个融合火山、古树与漂浮岛屿的幻想高原。
系统生成的场景除还原度高,还具备“可编辑场景”能力。用户可通过GLB/PLY格式图层,对局部模型进行拖拽、旋转与缩放,并导出源文件供后续使用。
在“图生场景”的功能体验中,智东西上传一张偏古风的游戏场景图进行生成。
▲图片由AI生成。
系统生成画面整体符合原图风格,但由于参考图中元素密集,AI在切分图层时准确度有限,影响后续编辑体验。
当前版本已初步支持基础漫游操作与模型局部编辑,仍存在部分角度生成不全、边界穿透等问题。若未来支持“以图续图”及生成链路简化,整体的可探索性与用户体验将显著提升。
结语:3D世界迈向关键一步,可用性已具雏形
就当前版本而言,混元3D世界模型1.0在空间细节密度、图层结构解析与交互完整性方面仍存在一定优化空间,特别是在处理复杂参考图和动态交互时,生成结果尚未完全稳定。
但与此同时,其在生成效率、结构分层、资产导出等核心能力上已具备较强可用性。无论是快速搭建虚拟场景,还是输出可编辑资产用于后续开发,混元模型初步打通了“从生成到应用”的关键环节。
更为重要的是,模型开源为开发者与内容创作者提供了真实可用的工具链入口,降低了3D建模与交互空间构建的技术门槛。
未来,若在可控性、物理仿真、跨平台兼容等方面持续推进,该模型或将成为AIGC三维内容生态的重要基础工具。