当前位置: 首页 » 资讯 » 新科技 » 正文

李飞飞造了个「永不消逝的世界」!单张GPU就能跑

IP属地 中国·北京 智东西 时间:2025-10-17 14:13:35


智东西
编译 王涵
编辑 漠影

智东西10月17日报道,昨晚,李飞飞团队发布全新实时生成式世界模型RTFM(Real-Time frame Model),只需单张H100 GPU就能运行!

该模型支持单图像生成3D场景,能处理多样化的场景类型、视觉风格及光影效果,包括镜面反射、光泽表面、动态阴影和镜头光晕。


▲李飞飞推文截图(X)

RTFM能在用户交互时实时生成视频,可用于探索生成的3D世界真实场景定位,现已开放研究预览版。

DEMO体验地址:https://rtfm.worldlabs.ai/

除了前后左右移动以外,RTFM还可以进行推拉变焦、重现鱼眼失真等镜头效果,能够像在一间真正的房间中漫步一样,真实感拉满。

李飞飞团队在博客中透露,RTFM围绕三大核心原则设计:

1、高效性:仅需单张H100 GPU即可实现交互级帧率的推理运算;

2、可扩展性:采用不依赖显式3D表征的建模方式,通过通用端到端架构从大规模视频数据中学习,随算力数据增长持续进化;

3、持久性:支持无限时长交互,构建的3D世界具有永久记忆——即使转身离开,场景依然存在。

在李飞飞的推文下,很多网友都觉得这个模型的DEMO效果非常惊艳。


▲网友评论截图(X)

也有比较专业的网友解释称,这个模型并不是直接生成3D世界,而是通过一张2D图片,补充这张图片场景下其他角度的2D图片。


▲网友评论截图(X)

AI数据平台公司Manifolds AI联合创始人Ziyang Xie体验后称,RTFM的空间一致性令人印象深刻,但速度过快时仍然会崩溃。


▲Ziyang Xie评论截图(X)

有网友体验完感叹道:“或许我们身处的世界也是运行在‘单张’H100 GPU上的。”


▲网友评论截图(X)

一、单张H100 GPU就能运行,还能保持交互帧率和持久性

李飞飞团队发现,在技术发展过程中,生成式世界模型对算力的需求将远超当前大语言模型。

若直接套用现有视频架构,实现60帧4K交互视频流需每秒生成超10万token(相当于首部《哈利·波特》的文本量),维持一小时以上持久交互更需处理超1亿token的上下文。以当前算力基础,这既不可行也不经济。

他们从中吸取了“教训”:随着算力成本指数级下降,那些能适应算力增长的简洁方法终将主导AI发展,而生成式世界模型正处在享受未来算力红利的最佳位置。

这就带了一个关键的问题:生成式世界模型是否会被当前硬件条件束缚?是否存在技术路径让我们现在就能预览未来?

为此,李飞飞团队设定了一个简单目标,即设计一个足够高效、当下即可部署的生成式世界模型,并能随算力提升持续扩展。

他们的具体目标是构建可在单张H100 GPU上运行的模型,既保持交互级帧率,又能实现无限持久的世界交互。

这一目标贯穿了他们从任务设定到模型架构的整个系统设计。通过精心优化推理栈的每个环节,融合架构设计、模型蒸馏和推理优化的最新突破,李飞飞团队在当今硬件上实现了对下一代模型最高保真度的前瞻。


三、能自主掌握反射阴影的渲染,RTFM是“学习型渲染器”

传统3D图形管线通过显式3D表征(如三角网格、高斯泼溅)构建世界并渲染为2D图像。它们采用手工设计的数据结构与算法来建模3D几何、材质、光照、阴影和反射等。这些方法数十年来一直是计算机图形学的支柱,但难以随算力数据自然扩展。

RTFM另辟蹊径,他们基于生成式视频建模的最新进展,训练单一神经网络来输入场景的一张或多张2D图像,无需构建任何显式3D表征即可生成新视角的2D画面。该模型采用自回归扩散Transformer架构处理帧序列,通过大规模视频数据端到端训练实现帧间预测。

RTFM还可以被认为是“学习型渲染器”,输入帧可以被转化为隐含世界信息的神经网络激活值(KV缓存),生成新帧时,网络通过注意力机制读取该表征,创建与输入视角一致的新视图。

从输入视图到世界表征的转换机制,再到基于表征的新帧渲染,全程通过数据端到端学习获得,无需人工设计,RTFM仅需在训练中观察即可自主掌握反射、阴影等复杂效果的建模。

重建(在已有视角间插值)与生成(创造输入视角未可见内容)在计算机视觉领域向来被视为两个独立的课题,但RTFM模糊了这二者之间的界限。当输入多视角图像时,模型更倾向于重建;当输入视角稀缺时,模型则被迫进行外推生成。


四、以位姿帧作为空间记忆,RTFM拥有持久记忆

现实世界的核心特性在于其持久性,当你移开视线时,世界不会消失或彻底改变。无论相隔多久,你总能重返曾经到过的地方。

这对自回归帧模型来说可不太容易。由于世界仅通过2D图像帧隐式表征,要实现持久性,模型必须在用户探索过程中对持续增长的帧序列进行推理。这意味着生成每一帧的成本会递增,模型对世界的记忆实际上被算力预算所束缚。

为突破这一桎梏,RTFM为每帧画面都赋予三维空间中的位姿(位置与朝向)。通过输入目标帧的位姿生成新画面,模型对世界的记忆就会具备空间结构,因为这些带位姿的帧构成了空间记忆系统。

这为模型注入了弱先验,即其所建模的世界是三维欧几里得空间,同时无需强制模型显式预测该空间中物体的三维几何。

生成新帧时,系统会从位姿帧构成的空间记忆中检索邻近帧,构建定制化上下文。这种“上下文调度”技术使模型能在空间不同区域生成时调用不同的上下文帧,从而无需对持续增长的帧序列进行推理,即可在长期交互中维持世界的持久性。


结语:世界模型突破算力限制,可在多行业中落地

李飞飞团队认为,RTFM的推出实现了在当今硬件上部署世界模型的愿景,并确立了将世界模型视为端到端数据驱动渲染器的技术路径。

RTFM的架构具备天然可扩展性,未来将会有更多的发展空间,比如它可以扩展为动态世界建模,允许用户与生成世界实时交互。

世界模型能实时重建、生成并模拟具有物理精确性的持久交互世界,这类模型或许将彻底改变从媒体到机器人等众多行业。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新