刚刚我在刷动态时,看到了李飞飞老师转发的一篇她们实验室的文章。标题是RTFM:实时框架模型。点进去之前,我以为这又会是一篇关于模型精度提升、参数量增加的常规技术发布,结果发现AI教母真不是白叫的
现在就可以在这里体验RTFM:
https://rtfm.worldlabs.ai/
长久以来,构建一个实时、持久、交互的虚拟世界,面临着一个近乎无解的难题:算力。
我们总以为,世界模型必然是用海量的GPU堆成的。文章里算了一笔账,如果要实时生成一个4K、60帧的互动世界,对算力的消耗,相当于AI每秒钟就要读完一本《哈利波特》。这还仅仅是实时,如果要让这个世界持久,你探索一小时后,所有东西都还在原位,那AI需要处理的记忆数据,将是一个天文数字
这样以来,世界模型将会是未来很多年,只有少数巨头才能参与的游戏
而RTFM给出的,却是一个极其优雅的答案,它没有去正面硬扛这个问题,而是绕了个弯,用一种更聪明的方式解决了它。李飞飞老师的答案是:在一块H100上,实现这一切
这个选择的背后,还是受到了sutton 老爷子的“苦涩的教训”的影响:我们是真的被硬件卡住了,还是我们的方法本身就不够经济?那些能够随着计算能力的提升而优雅扩展的简单方法,往往将在人工智能领域占据主导地位,因为它们能够受益于计算成本的指数级下降,而这种下降在过去几十年里推动了所有技术的发展。生成世界模型完全有能力从计算成本持续下降的未来中获益
传统的3D渲染,像是一个一丝不苟的物理学家,它需要精确计算每一条光线的路径、每一次反射和折射。这是一个庞大而严谨的工程
RTFM不一样。它是一个“被教会的渲染器”(Learned Renderer)。它通过观看海量的视频数据,学会了这个世界的光影、材质和空间关系应该是什么样子的
当你给它一张图片,让它生成一个新的视角时,它不是在计算物理,而是在它的认知里进行创作:根据我见过的亿万个厨房,在这个角度,光线大概率会这样反射,阴影应该落在这里
它把一个复杂的物理问题,转化成了一个基于数据和经验的感知问题。所以,它能如此高效地画出那些极其耗费算力的光影细节,比如水面和玻璃的复杂反射
另一个让我印象深刻的,是它解决持久性的方案
以往的模型,探索得越远,记忆的包袱就越重,最终会慢到无法使用。而RTFM给它记住的每一帧画面,都标记了一个空间坐标
这个设计非常巧妙。它等于给了AI一个空间感
当需要渲染一个新画面时,它不需要调动全部的记忆。它会像我们人一样,只关注附近的东西。这个技术,他们称之为“上下文腾挪”(Context Juggling)。这就像你在书房找一本书,你不会把整个家翻个底朝天,你只会去书架上找
正是这个看似简单的机制,让RTFM构建的世界可以无限大,永不遗忘,同时又保持着极高的效率
更多的技术细节看这里:
https://www.worldlabs.ai/blog/rtfm