当前位置: 首页 » 资讯 » 新科技 » 正文

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

IP属地 中国·北京 机器之心Pro 时间:2025-10-17 12:17:40




机器之心报道

机器之心编辑部

单 GPU 级世界模型来了。

斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果!

上个月,World Labs 发布了空间智能模型 Marble,「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。」

就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。



视频链接:https://mp.weixin.qq.com/s/heMBDj1zReeZkaF8n3Rnsg

RTFM 的全称为「Real-Time frame Model」,即实时帧模型。



根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。

在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。



另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。



World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM 的需求。但他们相信,生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。

评论区的大家直呼不可思议。



接下来看 RTFM 的技术细节。

世界模型需要巨大的算力

世界模型能够实时重建、生成并模拟持久的、可交互的、物理上准确的世界。

过去一年生成式视频建模的突破,正逐渐延伸到生成式世界建模的领域。

但随着技术的发展,有一点愈发清晰:生成式世界模型的计算需求将远超当今的大语言模型。

举例来说,生成一段 4K 分辨率、60 帧每秒的交互式视频流,就需要每秒输出超过 10 万个 token(相当于《弗兰肯斯坦》或《哈利・波特与魔法石》整本书的长度)。

而若要让这些生成内容在一小时以上的交互中保持一致性与持续性,模型需要处理超过一亿个 token 的上下文。

以今天的计算基础设施来看,这既不可行,也不具经济可行性。

图灵奖得主 Rich Sutton 所著《苦涩的教训(The Bitter Lesson)》中谈到:那些能随着算力提升而优雅扩展的简单方法,最终会在人工智能领域占据主导地位,因为它们能够持续受益于计算成本的指数级下降,而这种下降正是推动整个科技进步的核心力量。

生成式世界模型正好契合这一趋势:它们将在计算成本持续降低的未来中充分受益。

这引出了一个自然的问题:生成式世界模型是否被当今的硬件条件所限制?还是说,我们已经有办法在今天就提前预览这项技术的雏形?

为了回答这一问题,团队从一个简单的目标出发:设计出一个足够高效、今天就可以部署的生成式世界模型,并且能够随着算力的增长持续扩展。他们希望构建一个可以在单张 H100 GPU 上运行的模型,既能保持交互式的帧率,又能提供无论你与之互动多长时间都能持续存在的世界体验。

可扩展性:作为学习型渲染器的世界模型

传统的 3D 图形渲染使用显式的三维表示(例如三角网格、高斯点云等)来建模世界,并通过渲染生成二维图像。这类方法依赖人工设计的数据结构与算法,来模拟三维几何、材质、光照、阴影、反射等多个要素。几十年来,它们一直是计算机图形学的可靠主力技术,但在扩展数据量和算力方面却并不容易。

RTFM 采用了完全不同的方法。它基于最近在生成式视频建模方面的进展,训练了一个神经网络模型,该模型输入一个或多个场景的二维图像,无需构建任何显式的三维表示,就能从新的视角生成该场景的二维图像。RTFM 是一种自回归扩散式 Transformer 模型,作用于帧序列之上,端到端地在大规模视频数据上训练,以预测在已有帧条件下的下一帧。

如前所述,RTFM 可以被视为一个学习型渲染器。它的输入图像被转换为神经网络的激活(KV 缓存),这些激活以隐式方式表示整个世界;在生成新帧时,网络通过注意力机制从这种表示中读取信息,从而生成与输入视角一致的新视图。这一从输入视图转换为世界表示、再从表示中渲染新图像的机制,是通过数据端到端学习得到的,而非人工设计。RTFM 通过在训练中观察诸如反射、阴影等复杂视觉效果,从而学会了对它们进行建模。

通过将 RTFM 与 Marble 结合,可以从单幅图像创建 3D 世界。RTFM 可以渲染复杂的效果,例如光照和反射,这些效果是通过端到端的数据学习而来的。



RTFM 模糊了重建和生成之间的界限,在传统的计算机视觉领域,重建和生成是两个不同的任务。RTFM 这项技术 打破了这两者之间的界限。它不是分别处理重建和生成,而是用同一个模型同时处理这两种情况:

当输入视角很多时,RTFM 的任务变得容易 —— 因为大多数信息都已有,它就更像是在做重建。

当输入视角很少时,模型只能基于已有信息猜测出其他视角的内容,行为更像是生成。



另外,现实世界的一个关键特性是持久性:当你移开视线时,世界不会凭空消失或完全改变;无论你离开多长时间,总是可以返回到之前到过的位置。

但对于自回归帧生成模型来说,实现这一点是一大挑战。因为世界只通过一帧帧的二维图像隐式表示,要实现持久性,模型必须在用户探索过程中不断推理和记忆越来越多的帧。这意味着每生成一帧所需的计算成本会不断上升,最终模型所能记住的世界范围将受限于其计算资源。

RTFM 通过为每一帧建模其在三维空间中的姿态(即位置和朝向),巧妙地绕过了这个问题。

配合上下文调度(context juggling)机制,RTFM 能够在保持高效的同时,在大场景中保留住几何结构,实现真正意义上的世界持久性。



如果你还没有尝试过 RTFM,现在就去体验吧:https://rtfm.worldlabs.ai/

播客链接:https://www.worldlabs.ai/blog/rtfm

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新