当地时间 10 月 16 日,由知名学者李飞飞领衔的创业公司 World Labs 宣布推出 RTFM(Real-Time frame Model,实时框架模型)。这是一款能够实时生成交互式三维世界的全新世界模型,据团队介绍,RTFM 仅需单块 H100 GPU,就能实时生成可交互的三维世界。
去年十二月,World Labs 推出了首个重磅产品,展示了从单张图片生成持久三维世界的能力。彼时,业界已经为这种“图生世界”的技术所震撼。而如今发布的 RTFM,则在效率和交互性上实现了新的突破。
按照 World Labs 官方的描述,RTFM 围绕三个核心设计原则展开。
首先是效率——这款模型能够在单张 H100 GPU 上以交互式帧率运行推理。在生成式人工智能领域,算力消耗一直是制约技术落地的瓶颈。若要实现四千分辨率、每秒六十帧的交互式视频流,传统视频架构需要每秒生成超过十万个 token,这相当于每秒输出一本《弗兰肯斯坦》或《哈利·波特》第一部的文本量。要让这样的生成持续一小时以上,系统需要处理超过一亿个 token 的上下文。这在当前的计算基础设施下既不可行,也不经济。李飞飞团队信奉所谓的“苦涩教训”(The Bitter Lesson):那些能够优雅地随计算资源扩展的简单方法,往往会在 AI 发展中胜出,因为它们能够受益于计算成本的指数级下降。
RTFM 的设计哲学正是建立在这一信念之上。他们在技术路线上做出了大胆的取舍,从任务设定到模型架构,再到推理堆栈的每个环节,都进行了精心优化。团队运用了最新的架构设计、模型蒸馏和推理优化技术,试图在今天的硬件上,提前展现未来模型的能力。
其次是可扩展性。RTFM 的架构设计从一开始就考虑到了随数据和算力增长而扩展的能力。不同于传统三维图形管线依赖显式三维表示——如三角网格或高斯斑点——的做法,RTFM 走了一条截然不同的路径。它建立在生成式视频建模的最新进展之上,训练一个单一的神经网络,输入一张或多张场景的二维图像,然后生成从新视角观察该场景的二维图像,整个过程无需构建任何显式的三维表示。
从技术架构上看,RTFM 是一个自回归扩散 Transformer(Diffusion Transformer),它在序列帧上进行操作,通过大规模视频数据的端到端训练,能够基于之前的帧预测下一帧。这里可以将 RTFM 理解为一种“习得的渲染器”(Learned Renderer)。输入的帧被转换成神经网络激活——也就是键值缓存(Key-Value Cache,KV Cache),这种缓存隐式地表征了世界。在生成新帧时,网络通过注意力机制读取这种表征,创造出与输入视角一致的新视角。将输入视角转换为世界表征、再从这些表征渲染新帧的机制,全部是从数据中端到端学习而来,而非人工设计。
因此,RTFM 能够学会模拟复杂的光影效果——反射、阴影、光泽表面、镜头眩光——只需要在训练过程中观察这些现象即可。团队展示的案例中,赛博朋克风格的潜艇厨房、玻璃结构、电视屏幕中的复杂反射,都由模型自然生成,效果相当不错。
与此同时,RTFM 模糊了“重建”和“生成”之间的界限,这两者在计算机视觉领域历来被当作不同问题处理。当输入视角较多时,模型倾向于执行重建任务,因为约束条件更强;当输入视角较少时,模型则被迫进行外推,创造输入中不可见的内容。这种连续性让 RTFM 既能处理真实世界场景的渲染——团队展示了从短视频重建现实场景的案例——也能从单张图片生成想象中的三维世界。结合 World Labs 此前发布的 Marble 技术,用户可以从一张图片出发,探索完整的三维环境。
第三个原则是持久性。真实世界有一个关键属性——当你转过身去,世界并不会消失或彻底改变,你总能回到之前访问过的地方,无论离开多久。但这对于自回归帧模型来说一直是个挑战。由于世界仅通过二维图像帧隐式表征,持久性要求模型在用户探索世界时,需要对不断增长的帧集合进行推理。这导致每生成一帧都比前一帧更加昂贵,模型对世界的记忆实际上受限于计算预算。
RTFM 用一种巧妙的方法绕过了这个问题,它为每一帧赋予了三维空间中的“位姿”——即位置和方向。生成新帧时,系统会以待生成帧的位姿作为查询条件。这样一来,模型对世界的记忆,也就是它所记录的帧,就具有了空间结构。这些带位姿的帧构成了一种空间记忆。这赋予了模型一个弱先验——它所建模的世界是一个三维欧几里得空间——而无需强制它去显式预测该世界中物体的三维几何形状。
在生成新帧时,RTFM 会从空间记忆中检索附近的帧,为模型形成定制化的“上下文”。团队将这种技术称为“上下文切换”(context juggling)——模型在空间的不同区域生成图像时,使用不同的上下文帧。这使得 RTFM 能够在长时间交互中维持大型世界,而无需对不断增长的帧集合进行推理。演示视频中,用户可以在一个带有光泽反射的大堂中自由移动,几何细节在整个场景中保持一致,即便离开又返回也不会出现崩塌。
World Labs 在博客中表示,RTFM 目前还只是个开始。团队接下来想增强对动态世界的建模,让用户能真正与生成的世界产生交互。现在的版本针对单张 H100 显卡做了优化,但他们预期更大的模型、更多的算力投入,会持续带来性能提升。
有兴趣的用户现在可以访问 World Labs 官网,在浏览器中体验 RTFM 的演示版本。
参考资料:
1.https://www.worldlabs.ai/blog/rtfm
运营/排版:何晨龙