当前位置：首页 » 资讯 » 新科技 » 正文

腾讯混元3D世界模型开源！一句话，一张图，造一个世界

IP属地中国·北京 编辑：顾青青 时间：2025-07-27 16:14:19

智东西AI前瞻（公众号：zhidxcomAI）
作者 | 江宇
编辑 | 漠影
智东西AI前瞻7月27日报道，今日，腾讯混元正式发布3D世界模型1.0，并同步开源模型能力。
这是腾讯首次将3D内容生成从“物体级”扩展至“世界级”，用户只需一句话或一张图，即可生成一个360度沉浸式、可漫游、可编辑的三维虚拟世界。
腾讯混元3D团队在接受智东西等媒体采访时称，世界模型1.0兼顾生成质量与工业应用可落地性，也初步应用于游戏开发、具身智能仿真、XR内容制作等场景。近日，该模型也被AI设计Agent平台Lovart等正式接入。
体验指路：https://3d.hunyuan.tencent.com/sceneTo3D
Github项目地址：https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
项目主页：https://3d-models.hunyuan.tencent.com/world/
Hugging Face、模型地址：https://huggingface.co/tencent/HunyuanWorld-1
一、从资产到世界，3D生成拓展到“可漫游空间”
混元3D世界模型1.0是腾讯首次将AI生成能力从单个3D物体，扩展至整套可编辑、可导出的360度虚拟世界构建流程。
▲效果图（图源：混元官方）
该模型支持文本与图像输入，用户只需一句描述或一张参考图，即可生成一个具备空间一致性、支持自由漫游的3D场景。
与传统2D全景生成或静态3D模型不同，混元3D世界模型具备“能走、能用、能改”的三重特点：
1、生成内容为完整封闭场景，用户不仅可原地环视，还能通过键盘控制视角、方向，在空间中自由行走、漫游。
2、生成结果支持标准3D Mesh格式输出，兼容Unity、Unreal、Blender等主流引擎，可直接用于游戏原型验证、动画制作或仿真建模。
▲效果图（图源：混元官方）
3、该模型基于自研的语义层次化算法，将场景结构拆解为前景物体、地形地貌与天空贴图等模块，用户可对局部元素进行结构级修改。
▲混元世界模型1.0方法流程图（图源：混元官方）
二、从一张图到一个空间，混元怎么把世界“拼”出来？
混元团队在架构设计上引入了3D与2D融合方案：前景采用高保真3D建模，中景通过多视角补齐完成空间闭合，远景与天空则以图像方式渲染，实现兼顾细节质量与生成效率的折中。
为了提升模型的泛化能力与稳定性，该系统目前仅支持风格化图片、简洁构图、平视视角等输入，能够在有限样本下准确解析语义意图。
此外，混元还对模型的生成质量进行了定量评估，在纹理细节、美学水准、指令遵循等维度全面超越当前SOTA开源模型。
▲（图源：混元官方）
目前，该系统已支持初步的漫游交互与局部模型编辑，后续将拓展动作层建模能力，引入更强的物理仿真模块与跨平台输出标准。
三、体验：全景能看，场景能走，还能动手改
1、360度全景图：快速生成，初具细节
文生场景
在不包含人物的前提下，智东西点击系统内“随机”按钮，系统生成如下指令：“硅基树木与荧光植物，浮空孢子囊飘散，生物朋克生态，阿凡达电影概念艺术，紫蓝渐变色调。”
效果如下：
模型基本契合设定场景风格，尤其在近景处理上表现出一定细节感，如地表草根清晰可辨。不过，整体细节仍略显空泛，若未来支持对话式增补，有望进一步提升沉浸感与编辑灵活性。
图生场景
▲图片由AI生成。
智东西上传一张风格相近的参考图后，系统在理解与还原方面的表现显著提升，色彩、构图和场景一致性均优于文生模式。
2、漫游场景：可操作，可导出
文生场景
智东西编写了一段灵感源自“塞尔达传说”的复杂指令，要求构建一个融合火山、古树与漂浮岛屿的幻想高原。
系统生成的场景除还原度高，还具备“可编辑场景”能力。用户可通过GLB/PLY格式图层，对局部模型进行拖拽、旋转与缩放，并导出源文件供后续使用。
图生场景
在“图生场景”的功能体验中，智东西上传一张偏古风的游戏场景图进行生成。
▲图片由AI生成。
系统生成画面整体符合原图风格，但由于参考图中元素密集，AI在切分图层时准确度有限，影响后续编辑体验。
当前版本已初步支持基础漫游操作与模型局部编辑，仍存在部分角度生成不全、边界穿透等问题。若未来支持“以图续图”及生成链路简化，整体的可探索性与用户体验将显著提升。
结语：3D世界迈向关键一步，可用性已具雏形
就当前版本而言，混元3D世界模型1.0在空间细节密度、图层结构解析与交互完整性方面仍存在一定优化空间，特别是在处理复杂参考图和动态交互时，生成结果尚未完全稳定。
但与此同时，其在生成效率、结构分层、资产导出等核心能力上已具备较强可用性。无论是快速搭建虚拟场景，还是输出可编辑资产用于后续开发，混元模型初步打通了“从生成到应用”的关键环节。
更为重要的是，模型开源为开发者与内容创作者提供了真实可用的工具链入口，降低了3D建模与交互空间构建的技术门槛。
未来，若在可控性、物理仿真、跨平台兼容等方面持续推进，该模型或将成为AIGC三维内容生态的重要基础工具。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

大湾区科技盛会来袭！2025“岭南科技创新论坛”即将开幕

网购凤凰牌电动车电池标签与合格证不符，旗舰店称因疏忽配错

粤港澳大湾区生成式人工智能安全发展联合实验室正式成立

终究无可避免：微软将Copilot Chat添加到Office中

一次治疗长期获益？7款CAR-T产品国内上市，“天价抗癌药”仍需破解商业化难题

英伟达或成为台积电首批采用A16工艺的客户：用于2028年的Feynman架构芯片

全站最新

大湾区科技盛会来袭！2025“岭南科技创新论坛”即将开幕

网购凤凰牌电动车电池标签与合格证不符，旗舰店称因疏忽配错

粤港澳大湾区生成式人工智能安全发展联合实验室正式成立

终究无可避免：微软将Copilot Chat添加到Office中

热门推荐

众安系暖哇科技拟赴港IPO，曾获红杉、KTB等资本支持

调查｜日租金从2万元跌至2000元，机器人租赁价格大跳水

抖音：一个季度以来平台谣言曝光量下降67%

字节跳动回应朝夕光年裁员：上海游戏工作室没有关停

罗永浩微博IP显示在香港，内部人士回应：和西贝事件无关

华与华华楠谈预制菜：非预制菜的农残重金属危害比添加剂大十倍

罗永浩否认到香港“躲黑手”：就是出差

罗永浩谈华杉：站错队被恶搞是活该，但还是非常有实力的

华与华华杉回应向罗永浩道歉：以后你会懂的

大湾区科技盛会来袭！2025“岭南科技创新论坛”即将开幕

网购凤凰牌电动车电池标签与合格证不符，旗舰店称因疏忽配错

粤港澳大湾区生成式人工智能安全发展联合实验室正式成立

大摩分析师亲测特斯拉(TSLA.US)FSD后盛赞：彻底改变长途出行体验未来或成标配功能

开源证券：Gen3核心攻关在“手与前臂” 灵巧手或为量产落地最后一环

终究无可避免：微软将Copilot Chat添加到Office中