当前位置：首页 » 资讯 » 新科技 » 正文

李飞飞发布全新世界模型，单GPU就能跑！

IP属地中国·北京 量子位 时间：2025-10-17 14:14:19

时令发自凹非寺
量子位 | 公众号 QbitAI
李飞飞的世界模型创业，最新成果来了！
刚刚，教母亲自宣布对外推出全新模型RTFM（A Real-Time frame Model），不仅具备实时运行、持久性和3D一致性，更关键的是——
单张H100 GPU就能跑。

此外，RTFM的设计遵循三大核心原则：
效率：仅需单张H100 GPU，RTFM便能以交互级帧率实时完成推理运算。
可扩展性：该架构具备随数据量与算力增长而持续扩展的能力。它通过端到端的通用架构从海量视频数据中自主学习，无需依赖显式3D表征即可构建三维世界模型。
持久性：用户可无限时长与RTFM交互，所有场景将永久留存。该系统构建的持久化3D世界不会因视角转换而消失。
下面具体来看。
世界模型需要大量计算资源
强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界。这类模型将彻底改变从媒体到机器人技术等各行各业。
过去一年，生成式视频建模的进展已成功应用于生成式世界建模领域。
随着技术发展，一个事实愈发清晰：生成式世界模型对算力的需求将远超当今的大型语言模型。
若直接套用现有视频架构，生成60帧的4K交互视频流每秒需产生超过10万个token（约等于《弗兰肯斯坦》或首部《哈利·波特》的篇幅）。
而要维持一小时以上的持续交互，需处理的上下文token更将突破1亿大关。基于当前计算基础设施，这既不可行也不具备经济性。
李飞飞团队深信“惨痛教训”揭示的规律：
那些能随算力增长优雅扩展的简洁方法终将在AI领域占据主导，因为它们能享受数十年来推动技术发展的算力成本指数级下降红利。生成式世界模型正处在绝佳位置，必将从持续降低的算力成本中获益。
这也就引出一个关键问题：生成式世界模型是否会被当前硬件条件所限制？能否现在就预览这项技术的雏形？
于是，李飞飞团队设定了一个明确目标：设计一款足够高效、可立即部署，并能随算力提升持续扩展的生成式世界模型。
他们的目的是打造仅需单张H100 GPU即可驱动的模型，在保持交互帧率的同时，确保虚拟世界永不消散。实现这些技术指标，将让他们提前窥见未来——在当下硬件上体验明日模型可能达到的高度。
这一目标深刻影响着他们从任务设定到模型架构的整个系统设计。通过精心优化推理堆栈的每个环节，融合架构设计、模型蒸馏与推理优化的前沿突破，他们致力于在当今硬件上呈现对未来模型最高保真度预览。
世界模型作为学习渲染器
传统的3D图形管线采用显式3D表征（如三角网格、高斯泼溅）构建世界模型，再通过渲染生成2D图像。这些管线依赖人工设计的数据结构与算法来模拟3D几何、材质、光照、阴影及反射等效果。
数十年来，这类方法始终是计算机图形学领域的中流砥柱，但其难以随数据量与算力增长实现线性扩展。
RTFM则另辟蹊径。基于生成式视频建模的最新突破，研究团队通过训练单一神经网络，输入场景的单张或多张2D图像，即可从全新视角生成该场景的2D图像，全程无需构建任何显式3D表征。
RTFM还采用作用于帧序列的自回归扩散变换器架构，通过海量视频数据进行端到端训练，实现基于历史帧的后续帧预测。
RTFM 可以被视为一种可学习的渲染器（learned renderer）。它首先将输入的图像帧转换为神经网络中的激活（即KV cache），这些激活以隐式方式表示整个世界，在生成新帧的过程中，网络通过注意力机制从这种表示中读取信息，从而根据输入视角生成与之保持一致的世界新视图。
从输入视图转换为世界表示，以及再从该表示中渲染新帧的机制，并不是通过手工设计的，而是通过端到端的数据训练自动学得的。
RTFM只需在训练过程中观察到这些现象，就能够学会建模诸如反射、阴影等复杂效果。
可以说，RTFM模糊了“重建”（在已有视角之间进行插值）与“生成”（创造输入视角中不可见的新内容）之间的界限，而这两者在计算机视觉中历史上一直被视为两个独立的问题。
当RTFM被提供大量输入视角时，由于任务约束更强，它更倾向于执行重建；当输入视角较少时，它则被迫进行超出已有视角的外推生成。
将姿态帧作为空间记忆
现实世界的一个关键特性是持久性（persistence）：当你移开视线时，世界不会消失或完全改变，无论你离开多长时间，你总是可以回到之前去过的地方。
这对自回归帧模型来说一直是一个挑战。世界仅通过二维图像帧被隐式表示，因此，实现持久性要求模型在用户探索世界的过程中，对不断增长的帧集合进行推理。这意味着每生成一帧的成本都比前一帧更高，因此模型对世界的记忆实际上受到其计算资源预算的限制。
RTFM通过将每一帧建模为在三维空间中具有一个姿态（位置和方向）来规避这一问题。他们通过向模型提供待生成帧的姿态来生成新帧。
模型对世界的记忆（包含在其帧中）具有空间结构。它将带有姿态的帧作为空间记忆使用。这为模型提供了一个弱先验——即它所建模的世界是三维欧几里得空间——而无需强制模型显式预测该世界中物体的三维几何形状。
RTFM的空间记忆使得持久性不受限制。在生成新帧时，他们会从已姿态帧的空间记忆中检索附近帧，以为模型构建一个定制的上下文。
团队将这一技术称为上下文切换（context juggling）：模型在不同空间区域生成内容时会使用不同的上下文帧。这使得RTFM能够在长时间交互中保持对大型世界的持久记忆，而无需对不断增长的帧集合进行推理。
最后，该模型即日起以预览版形式开放体验，现在就可以试起来了…
试完欢迎回来补个反馈评论哦，笔芯～
参考链接：
[1]https://x.com/drfeifei/status/1978840835341914164
[2]https://x.com/theworldlabs/status/1978839175320186988
[3]https://www.worldlabs.ai/blog/rtfm

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

三星Galaxy S26 Ultra欧盟能效标签曝光：额定4855mAh电池

苹果为零售店员工推出Sales Coach应用，搭载AI聊天机器人

部分Mac用户反馈苹果macOS 26.3 Tahoe无法挂载外接磁盘

美股风格切换！科技七巨头风光不再，英伟达能否扭转战局

不止Magic V6和萝卜手机：罗巍预告MWC 2026荣耀有个大消息要宣布

荣耀Magic V6折叠屏手机亮相，带来全新「赤兔红」配色

全站最新

三星Galaxy S26 Ultra欧盟能效标签曝光：额定4855mAh电池

苹果为零售店员工推出Sales Coach应用，搭载AI聊天机器人

部分Mac用户反馈苹果macOS 26.3 Tahoe无法挂载外接磁盘

美股风格切换！科技七巨头风光不再，英伟达能否扭转战局

热门推荐

马年开门红！雷军公布小米新一代SU7新颜色：赤霞红

X 平台悄然测试“AI 生成”标签，违规者或面临封号

中国大模型强势出海，OpenRouter Token 成跨境科技新风口！

小米Tag追踪器官宣2月28日海外发布

谷歌大手笔！为全美 600 万教师提供免费 Gemini AI 培训，助力 AI 教育新纪元

苹果员工有了专属“智能外挂”：Sales Coach 应用上线，内置 AI 聊天机器人

史上最贵iPhone要来了！苹果首款折叠屏手机iPhone Fold 9月上市

花旗前高管称未来几十年机器人数量将超越人类劳动力

前 Twitter 团队推出 Particle，用 AI 帮你“读”出播客里的头条

星门项目停滞，OpenAI 迫切寻求算力新出路！

Meta AI 研究员遭遇 OpenClaw 代理失控，“压缩机制”或为罪魁祸首

Karakeep 0.31.0 重磅更新！跨设备同步和强大OCR功能来了！

韩国三大电视台联手起诉 OpenAI，因未经授权使用新闻内容！

OpenAI 联手四大咨询巨头：成立“前沿联盟”，欲破企业级 AI 落地僵局

Anthropic 调研发现 AI 生成内容越精致，人类越容易放弃思考