当前位置: 首页 » 资讯 » 新科技 » 正文

美国视频生成老炮儿,入局世界模型

IP属地 中国·北京 编辑:胡颖 量子位 时间:2025-12-13 16:07:31

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

世界模型赛道,又有老面孔新鲜入局!

就在刚刚,Runway发布旗下首个通用世界模型GWM-1

不止于此,还打包发布了一系列世界模型变体:

模拟真实环境的GWM Worlds;

模拟人物对话的GWM Avatars;

模拟机器人操作的GWM Robotics。

……

而这些通通都是基于最新版Gen-4.5建立的。

是的!Runway这次还把Gen-4.5来了个大升级。

看来年末大促销的不只有圣诞老人奥特曼,还有好莱坞名导Runway。

话不多说,上实机:

自动播放

世界模型全家桶发布

根据官方介绍,GWM-1是基于Gen-4.5构建的,这是Runway最新的视频生成模型。

但和Gen-4.5有所不同的是,GWM-1采用的是自回归架构,它可以根据之前的记忆内容,进行逐帧预测生成。

另外模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频。

它目前包含三个变体:

1、GWM Worlds:用于实时环境的模拟与探索。

GWM Worlds能够让用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间。

具体来说,用户首先需要为模型提供一个可供参考的静态场景,然后它就会在用户移动过程中,实时生成一个沉浸式、无限且可探索的空间,其中包含几何图形、光照和物理效果。

相比于其它世界模型,普遍只能生成有限长度的帧序列,GWM Worlds不仅能够在智能体移动的同时实时生成新场景,还能保持这些场景元素在长序列移动过程中的空间一致性

允许用户通过文本提示改变环境的物理规则,例如当提示词要求智能体骑自行车,场景就会被约束在地面上;反之如果提示飞行,模型就会解除重力约束,实现空中自由导航。

这将有助于训练智能体在真实物理世界的行动,GWM Worlds可以快速搭建出一个能让智能体自由探索、犯错和学习的环境。

此外GWM Worlds也可以通过实时生成虚拟环境,为VR沉浸式体验提供支持。

2、GWM Avatars:能够模拟人类对话。

这是一个由音频驱动的交互式视频生成模型,可以模拟自然的人类表情和动作,无论是写实还是风格化角色。

能够渲染出逼真的面部表情、眼部动作、口型与语音同步,以及自然的手势,在长时间交互中也能保持稳定质量。

自动播放

它可以作为生活中的个性化导师,用仿真的互动方式解释复杂概念;也能改变客户服务方式,生成一个永远耐心、随时在线、具有人类表情的数字人,帮助解决用户实际需求。

在面试、谈判等高压场景中,GWM Avatars模拟真实对话,让人们得以在安全环境中练习冲突沟通或演讲示范;而在游戏和互动娱乐领域,也能让NPC变得栩栩如生——做到能倾听、能思考、能对话。

而GWM Avatars即将正式上线,并提供API,供使用者自行集成到自己的产品或服务中。

3、GWM Robotics:用于机器人操作。

GWM Robotics本质上更偏向于学习型模拟器,并非基于固定规则编程,而是通过学习机器人相关数据形成模拟能力。

自动播放

换言之,它是一个在机器人数据上训练的世界模型,会根据机器人动作预测视频序列,主要承担两大任务:

用于策略训练的合成数据增强:

通过GWM Robotics生成合成训练数据,然后从新物体、任务指令和环境变化多个维度扩充现有的机器人数据集。

这些合成数据无需进行昂贵的真实世界数据收集,就能提升已训练策略的泛化能力和鲁棒性。

模拟中的策略评估:

在GWM Robotics里,可直接测试策略模型可行性(如OpenVLA、OpenPi等VLA模型),而无需部署到实体机器人上。

这种方法将比真实世界测试更快、重复性更高,且安全性显著提升,同时还能提供贴合实际的行为评估。

总的来说,GWM Robotics可以有效解决物理硬件的瓶颈问题(成本高、损耗快、场景难复现等),通过模拟环境替代实体硬件场景,可以让训练和评估更高效、更具性价比。

同时还发布了GWM Robotics的Python软件开发工具包(SDK),该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中。

OMT

除了世界模型,Runway这次还对Gen-4.5进行了升级更新,新增支持原生音频生成原生音频编辑

自动播放

比如Gen-4.5现在可以生成逼真的对话、音效和背景音频,把原先的创作内容扩充到更广的故事类型。

在现有音频的编辑上,用户可以根据自己的特定需求以任何方式进行调整。

不仅能用音频生成新视频,还引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换。

标签: 模型 世界 机器人 视频 场景 环境 音频 用户 入局 物理 炮儿 动作 序列 美国 硬件 方式 偏向 策略 对话 空间 数据 表情 实体 好莱坞 奥特曼 人类 编辑 原生 指令 记忆 风格化 质量

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。