
![]()
“构建世界模型,为什么不能只靠「炼丹」?”
作者丨吴彤
编辑丨林觉民
在香港中文大学(深圳),助理教授韩晓光的实验室名为GAP,意为“像素、点与多边形的生成与分析”。现在看来,这个名字,也隐喻着他希望弥合真实世界和虚拟世界之间的“鸿沟”的意思。
2018年,韩晓光加入这所大学时,是当时唯一专注于计算机图形学研究的教师。2024年,他尝试从三维重建拓展至具身智能与世界模型,又一次如入无人之境。
在小红书上,他的账号@韩晓光,简介仅有两行:港中深理工学院助理教授、图形学与三维视觉。他将小红书视为传播平台,也视为个人思考的整理场所,会公开讨论“显式3D是否还有必要”、“世界模型为何需要可解释性”等专业问题,也会记录与学生讨论时获得的启发。
这种直接、平实的分享,吸引了一批对技术本质感兴趣的读者,也代表了韩晓光这类青年教师群体打破学术边界的自觉实践。从某一种角度看,构建世界模型需要理解真实世界的运行逻辑,而他的线上互动,本身就是一场持续进行的、小规模的“世界模拟”。
在韩晓光的叙述中,他研究演进是自然发生的。从三维重建到动态生成,再到服务于机器人的虚拟环境构建,核心始终是“三维内容的生成与理解”。
前段时间,他曾在2025年10月的国际计算机视觉大会(ICCV),他与三十多位来自学术界与工业界的研究者见了面。他们聊了很多,包括:视觉内容生成需要3D吗?视觉内容生成如何做到物理真实?学术界还应该做视频生成吗?三维数字人还有必要做吗?具身智能数据应该走哪条路线?具身触觉感知的必要性和现状?学术界怎么做具身智能?三维生成的架构用AR还是Diffusion?
但其实,这些小问题都指向一个大问题:我们离一个真正理解世界运行规律的 AI 还有多远?
过去一年,整个行业在“世界模型”热潮中的集体探索与路径分歧。有人相信数据与算力终将炼出无所不能的模型,也有人坚持必须为 AI 注入人类可理解的结构与逻辑。
韩晓光说,他要做后者。
近日,在雷峰网举办的第八届GAIR全球人工智能与机器人大会现场,韩晓光教授做了题为《3DGen:人类安全感之战》的分享,以下为他的演讲内容,雷峰网做了不改变原意的编辑。
01
三维生成发展历程
我今天想讲的是三维生成。刚才几位嘉宾有提到数字人、视频生成和具身智能。现在当我们谈论三维生成时,大家能联想到什么?如果是这个领域的研究者,可能会想到腾讯混元3D生成。
首先,我想梳理一下三维生成的发展历程。
实际上,在深度学习兴起之前,三维生成的概念已经存在。当时就有许多研究者思考:深度学习既然能很好地生成图像,那能否生成3D内容?
![]()
因此,最初的方向就是尝试从单张图像生成三维模型,准确说三维生成在早期阶段主要聚焦于“类别限定”。这是什么意思呢?就是针对椅子、车辆、角色、头发、人脸、人体等不同类别,分别训练一个模型。那时候还没有“大模型”的概念,但深度学习模型已经广泛应用。
![]()
而“开放世界”的三维生成,大约从两、三年前(2023年左右)的Dreamfusion工作开始兴起。当时我们可以通过优化的方式生成3D模型,但速度较慢,通常需要一两个小时。在这个阶段,随着Stable Diffusion等文本到图像模型的成熟,研究者开始探索能否用文本直接生成3D模型,这就是“文生3D”,我们称之为开放世界生成,因为它不再受类别限制,任何文本都可以生成对应的3D模型。
![]()
随后的一段时间里,出现了许多以“Dreamer”为后缀的研究工作,这些都是Dreamfusion之后的一系列进展。这些工作都致力于提升文本到3D的生成效果,但基本都基于优化方法,生成速度较慢,通常需要半小时到一小时才能产出一个模型。
![]()
而现在,我们进入了大模型时代。
首先,Adobe推出了一个名为Large Reconstruction Model的模型,它利用海量数据训练,能够从单张图像重建三维模型。随后,最早是由上海科大在Clay这项工作里,率先提出了“原生模型”的概念。发展到现在,我们已经看到了像“混元3D”等许多商业公司和软件,这类应用已经非常多。现在,例如混元3D的3.0版本,你随便输入一张图片,它真的能生成一个在普通人看来几乎没什么瑕疵的三维模型。
![]()
02
三维生成发展趋势
接下来,我想分享当前业界关注的三维生成的前沿方向与发展趋势。
首先是更精细。这意味着我们需要在几何层面实现极致的细节表现,让生成物体表面的几何信息无比丰富。例如数美万物的Spark 3D。
另一个重要趋势是更结构化。在游戏等行业,一个三维模型通常需要被拆解成不同部件,比如衣服、身体、头发需要分开,以便设计师进行独立编辑。如果生成模型是为了3D打印或制造,那这种结构化的分解就更为必要,因为真实世界的物体本身就是由多个部件组装而成的。混元3D的“X-Part”工作就是一个例子,它能够生成游戏角色并将其部件合理地拆分开。
第三个方向是更对齐。现在的商业软件可以从一张图重建3D模型,但如果你仔细观察,生成结果与输入图像往往存在细节不对应的问题。比如,一张图里的栅栏有5条横杠,生成模型里可能变成了6条。这是当前生成模型固有的难题。我们组的一项工作就致力于解决这个“对齐”问题,力求让生成的三维模型在结构上与输入的二维图像严格对应。
![]()
03
三维生成的尴尬
以上我简单梳理了三维生成至今的发展脉络,然而,三维生成一直面临一个尴尬,尤其是在视频生成技术出现之后。
这个尴尬是什么呢?
我相信大家可能都玩过游戏或看过CG动画电影。在传统游戏或动画制作中,创建一个角色需要非常繁琐的流程。这里我展示几个例子:首先需要概念设计和草图,然后基于草图进行3D建模——这又涉及低模/高模制作、拓扑优化,之后还要进行纹理贴图、骨骼绑定、制作动画,最后再进行渲染。但你会发现,尽管中间过程极其复杂,包含了大量三维工作,最终的产出形式依然是视频。
这就是尴尬所在。
![]()
当视频生成(如Sora)出现后,一个文本指令就能直接输出视频,中间完全跳过了所有复杂的三维流程。这对于我们图形学、游戏和三维生成领域的人来说,无疑是一个冲击。
很多同行,包括我自己在内,都曾一度怀疑:在视频生成如此强大的时代,3D内容创作还有存在的必要吗?
这确实是近期行业内许多人关注和讨论的问题。但三维生成自有其“求生欲”,我们不会轻易被取代。这种“求生欲”源于我们发现视频生成技术当前存在的一些核心局限。
首先是物理不够真实,视频生成在模拟复杂物理交互和长期一致性上仍有困难。
其次是3D空间不一致,物体在运动中的形态和透视可能发生不合理变化。
最重要的是内容可控性不足。比如,我想把生成视频中的一个玻璃杯换成特定形状或颜色,在传统三维流程中这是轻而易举的编辑,但在纯文本驱动的视频生成中,目前还难以实现这种精细、可控的修改。
这些发现让我们重拾了信心。视频生成还做不到这些,这说明基于三维的、结构化、可编辑的内容创作流程,依然拥有不可替代的价值。
![]()
然而,真正的危机依然存在。我们不是说视频生成“不可控”吗?但今年,Sora2 和谷歌的 Veo3 相继推出,它们已经展示出了初步的“可控”能力。至少,可控的雏形已经显现。这种可控性体现在哪里?比如,我可以控制视角的变化。生成的不仅是一个固定视角的视频,而是可以进行交互,就像玩游戏一样切换画面,实现场景漫游。虽然这还只是粗糙的可控,但真正的危机感已然来临。
![]()
于是,一系列根本性问题摆在我们面前:视频生成模型真的不需要3D吗?
就此,我问过许多业内人士。许多从事3D工作的人认为,视频模型可能还是需要3D的;而许多做视频模型的人则觉得不需要。那么,究竟需不需要呢?
我可能给不出确定的答案,但可以梳理一下思路。在我看来,当前视频模型面临两个似乎尚未找到完美解决方案的核心难题:
细节可控:正如我之前提到的,你生成了一段视频,但能否精细修改视频中人物的脸型、衣着、发型,这种对细节的精准控制目前依然非常困难。
长程记忆:目前生成的视频长度有限,比如一两分钟。但想象一下,如果生成一个室内漫游视频,当你走进一个房间又离开,再回到这个房间时,模型很可能“忘记”了房间原来的样子,生成的内容与之前不一致。这说明模型缺乏对已生成内容的持久记忆。
![]()
那么,视频模型到底需不需要3D?要解决上述的“细节可控”和“长程记忆”问题,3D或许能提供一种思路。利用3D的方式,大概可以分为四种路径:
第一种,完全不用3D。这是目前主流的端到端范式:输入一个条件(如文本),通过一个庞大的神经网络,直接输出视频。整个过程是纯2D的,依赖海量视频数据训练。这也是现有视频模型的基本逻辑。
第二种,利用3D仿真作为“世界模拟器”。我们知道,3D仿真本身就在尝试构建一个世界模型,只是目前仿真结果还不够真实。那么,是否可以将其作为第一步:先根据用户输入的条件(如文本),通过3D仿真引擎生成一个CG视频(如游戏画面或动画)。这个视频是高度可控的,但问题在于它不真实,有明显的CG感。于是,可以在其后接入一个神经网络,专门负责将CG视频“转化”为看起来真实的视频。
第三种,将3D信息作为控制信号输入。既然纯视频生成不可控,那能否将3D信息作为额外的控制条件,注入到生成网络中?其框架是:在输入生成条件的同时,也输入3D信息。例如,要生成一个室内漫游视频,可以先对室内场景进行三维重建。这个重建的三维模型,本身就充当了一种“记忆”,记录了场景的空间结构。基于这个三维记忆,再去生成漫游视频,就有可能实现更长的、空间一致的视频内容。
第四种,用3D合成数据来辅助训练。第一种2D“端到端”范式最大的瓶颈是缺乏高质量、可控的训练数据。网上的视频数据虽然多,但不可控。那么,能不能利用3D仿真技术,批量生成大量可控的、带标注的视频数据?然后用这些合成数据,作为训练信号或损失函数的一部分,来引导和增强纯端到端的视频生成模型。
04
世界模型需要3D吗?
回到我们今天的主题“世界模型”。现在一提到世界模型,很多人会直接联想到视频模型。
这里有一个根本性问题:我们为什么要做世界模型?因为我们需要“还原”或“数字化”一个虚拟世界。视频是对世界的一种数字化记录,3D则是另一种形式的数字化。那么,世界模型究竟需不需要3D?
要回答这个问题,首先要厘清“世界模型”是什么。
我认为,世界模型的核心出发点,是对我们所生活的真实世界进行数字化,用计算的方式理解和表达其中蕴含的规律。有了这个模型,我们才能进行预测——这是世界模型一个极其关键的功能。
![]()
在我看来,世界模型大概可以分为三类:
第一类,是服务于“人类共同体”的宏观世界模型。这其实是我们人类一直在做的事:试图“窥探天机”。从古代的司天监观测天象,到现在的天气预报、全球气候模拟,再到生命科学探索自然规律,甚至从某种“造物主”视角去推演文明、社会的兴衰与可能的灾祸。我们在尝试理解并预测这个物理世界和社会系统运行的根本规律。不过,这或许不是当前AI语境下“世界模型”讨论的重点。
第二类,是服务于“个人”的体验与探索模型。我们每个人与生俱来有一种最深层的需求:探索未知。但人类个体是渺小的,我们无法亲身抵达世界的每一个角落,更无法触及想象的边界。因此,我们需要一个虚拟世界。想象一下,如果能像《头号玩家》那样,戴上VR设备,就能坐在家中沉浸式地游历世界任何地方——无论是真实世界的数字复刻,还是人类纯粹创造的幻想之境。这种深度、个性化的体验,是驱动我们创造虚拟世界的核心动力之一。
在这个虚拟世界里,我们需要什么样的规律呢?可交互性是核心。你不仅需要看、需要听,还需要能够操作、漫游,甚至能感受到触觉反馈。要建立这样一个可交互的虚拟世界,我们就必须研究和数字化其中大量的物理与交互规律。
这引出了世界模型的第三类,也是当前讨论最多的:给机器用的世界模型。
比如,用于自动驾驶汽车或具身智能机器人。这是一个“具身”的世界模型。以自动驾驶为例,汽车在决定一个动作(比如变道、转动方向盘)时,需要能根据这个动作,预测世界(周围环境、其他交通参与者)接下来会发生什么变化。这就是世界模型在增强机器智能方面的关键作用。
从以上三类来看,要实现可交互的世界模型,3D似乎是必要的。再举VR的例子,如果只有视频模型,当你转动视角或进行操作时,它可以给你视觉反馈。但当我们进一步需要真实的触觉反馈,去感受物体的大小、形状和质地时,就必须依赖对三维空间的精确理解和建模。因此,在可交互的需求下,3D是不可或缺的。
05
具身智能需要3D吗?
接着这个话题,就关联到,具身智能是否需要3D?
![]()
虽然我研究不深,但当前的主流方法是向人类学习。我们之所以要造人形机器人,就是希望它能完成人类能做的所有事情。那么,要“向人类学习”,我们就必须研究人类是如何与世界交互的:如何拿杯子、倒水、做饭。要研究这些,第一步就是对人类与物体的交互过程进行数字化。比如,左下角的例子展示了人手抓取物体的过程。我们必须对这种交互进行精确的、动态的捕捉与还原,才能深入理解人手操作的机理。从这个角度看,3D乃至4D的还原是必要的基础。
其次,如果不从人类示范中学习,我们还可以让机器人在真实或仿真的世界中去主动探索,就像人类通过实践和强化学习来发展智能一样。但让机器人在物理世界无限制地探索是困难且危险的。因此,我们需要仿真环境。这就必然要求我们能够创造和生成可交互的三维场景。有了这样的虚拟场景,机器人才能在其中安全、高效地进行大量试错和强化学习。从这个角度看,具身智能同样离不开3D。
除了这些“虚拟”世界的需求,还有一个实实在在、无法绕过3D的领域:从数字到实体的制造。
![]()
我们不仅需要在虚拟环境中与一个杯子互动,最终可能还要将这个杯子真正打印或制造出来,实现个性化定制。无论是三维打印、智能制造,还是CAD模型生成(这也是当前3D生成的热点方向),这个“从虚到实”的过程,3D是绝对的基础。例如,我们正在进行的牙齿生成项目,目的就是为了制造出精确的牙齿模型,这完全依赖于高质量的三维数据。
06
技术路线之争:显式与隐式之争
最后不得不谈一个核心的技术路线之争:显式与隐式之争。
![]()
我先解释一下这两个概念。假设我们有一个具身智能任务:一个机械爪要抓起一个盘子,我们需要预测它提起盘子后会不会掉下来。
隐式路径是怎么做的呢,就是构建一个端到端的神经网络,输入一张图片,直接输出预测结果。为此,我需要准备大量数据来训练它。其核心在于一个称为 “潜变量”(Latent) 的东西。模型的有效性依赖于这个潜变量,它将所有输入信息(包括其中隐含的物理规律)都编码在其中。我们相信,通过大量数据训练,这个潜变量自身就学习和蕴含了完成任务所需的物理知识。这是典型的“黑箱”或端到端逻辑。
显式(模型驱动)路径:与之相对,显式方法会分步进行:
首先,我会显式地重建出爪子和盘子的三维模型。然后,基于这些精确的几何模型,我分析它们是否充分接触,再结合盘子材质等物理参数,通过明确的物理公式进行计算,最终判断出提起后是否会掉落。这条路径依赖我们对世界(几何、物理)的明确建模和理解。
显式方法是我们比较容易理解的,也是深度学习兴起之前主流的范式;而人类无法直观理解的,如何运作我们并不完全清楚,就称为“隐式”。
我再举一个开车的例子。很多汽车会显示一个功能:将周围车辆的三维模型重建出来,可视化地展示给你看,并提示碰撞风险。这是显式的方式。另一种隐式的方式是,系统不展示任何三维模型,只是在快撞上时给你一个文本或声音警告。如果让你选,开哪种车会更有安全感?我想大多数人会选择前者——把所有东西都可视化给我看,我才能理解和信任系统做出的“会撞上”或“不会撞上”的判断。
这里就引出了一个关键词:安全感。
我们为什么要做世界模型?其背后亘古不变的动机,是人类探索世界规律的渴望。而人类之所以要探索规律,根据 DeepSeek 给我的答案,是因为我们对未知有着与生俱来的不安全感。正是这种对未知的恐惧,驱动我们去探索大海、探索太空,也驱动我们去构建世界模型,以获得对世界的理解和掌控,从而满足我们的安全感。
那么,在AI时代,最让人感到不安全的是什么?对我来说,有两个词:“端到端” 和 “潜变量”。
我知道它们能工作,但我不知道它们为什么能工作。不仅是普通用户不知道,很多时候我们研究者也不完全清楚。我们只知道堆叠网络层,却不知道里面的神经元究竟在做什么。其本质在于,这个“潜变量”是一个高维向量,而人类无法直观理解高维空间。
人类能理解什么?我们能理解3D和4D。我们从初中学习平面几何,到高中学习立体几何,我们能把理解到的3D、4D概念画在纸上。但一旦进入5维、6维甚至更高维度,我们就无法想象了。这也是为什么会有“可视化”这个领域——它的核心逻辑,就是把高维的东西“拍扁”成2D或3D,以便能更容易地理解。
所以,我再次强调为什么3D/4D是必要的。正是因为3D/4D是我们人类能够直观理解和感知的维度,它们能带给我们最直接的安全感。
![]()
最后,面对日益强大的AI,我认为可解释性是人类保有基本尊严的关键。
我想用一个场景来总结。想象古代一位追求长生不老的皇帝,他招揽了许多聪明的术士来炼丹。这些术士很给力,不断进献丹药,虽然还不能让人长生不老,但或许能强身健体。他们还会不断升级,拿出v2、v3版本。皇帝很开心,不断给予经费和权力,术士的部门也越来越庞大。但这里有一个前提:皇帝(统治者)完全不懂炼丹的原理,他不知道这丹药是怎么做出来的。
那么,请大家想象一下,当有一天,术士们宣布:“我们快要炼出长生不老药了!” 此时此刻,皇帝会怎么想?他又会如何对待这些术士?
所以,我认为真正的安全感,永远来源于效果与可解释性之间的平衡。这一点至关重要。然而,在我们当前的AI时代,这个天平已经严重失衡了。我们过分追求性能(performance),过分追求效果,但可解释性还远远不够。而要实现可解释性,3D是必不可少的途径。因为它提供了我们人类能够直观理解、能够信任的基石。





京公网安备 11011402013531号