![]()
作者 | 董道力
邮箱 | dongdaoli@pingwest.com
今天凌晨,Google DeepMind 向外部开放了 Project Genie,可以算是世界模型 Genie 3 的实验性研究原型,也是这套世界模型第一次以可交互形态对公众开放。
目前,该原型率先向年满 18 岁的美国 Google AI Ultra(3个月125刀) 订阅用户开放。
1
实测 Project Genie
![]()
与视频生成模型不同,Project Genie有两个promtps填写位置,左边填写环境的 prompt,右边写主角的 prompt,还能上传参考图片。选择用第一人称还是第三人称。
![]()
在输入提示词后,短短一分钟内,Project Genie 显示世界模型视频的“第一帧”,给用户一个预览,看看是否要进行调整。
我尝试了两次同样的提示词,差别还是有的。
![]()
![]()
如果对预览结果满意,就可以直接开始创造世界。
当世界生成完成后,用户即可接管角色,在世界中进行自由探索。
目前 Project Genie 支持约 1 分钟的可交互探索时长,分辨率为 720p。虽然时间和分辨率不是很前沿,但世界模型在这个时间点,最重要的是“控制”。
Project Genie 的人物控制方式接近传统游戏逻辑,用户可以使用 WASD 控制角色前后左右移动,同时用方向键可独立控制视角进行前后左右的镜头转动,最惊喜的是人物可以跳。
相比人物位移,视角移动明显更加流畅,响应延迟很低,整体操作手感更接近实时渲染而非视频回放。同时,系统内置了基础的物理约束,例如角色行进到场地边缘时会自然停下,而不是穿模或继续滑行。
从生成质量来看,Project Genie 与传统视频生成仍存在明显差异,但在“世界还原”层面已经相当完整。prompts中提到的球场、草地、傍晚光照、电子大屏、观众挥舞旗帜都被还原。此外,人物的初始位置同样符合语境,从中圈附近出发,身着简洁的训练服,与整体世界设定保持一致。
我们再来试试用图片生成世界。
![]()
这一次我们上传的是《艾尔登法环》的游戏画面。Project Genie 基本复现了原图的环境特点,具体效果直接看生成视频即可。
Project Genie 生成的世界是可以反复进入的。在这次测试中,我们选择了与之前足球场案例不同的路径,不再是平面移动,而是尝试纵向位移。
这个世界中人物初始位置就在悬崖边缘。于是我们让人物直接跳下悬崖。
从结果来看,表现相当完美。人物起跳、下落、落点的空间关系在视觉上是合理的,而且角色顺利落到下方路径,没有出现明显的空间错位。
第二次跳崖时,角色在下落过程中甚至因为蹭到岩壁而短暂“卡”了一下,这个细节很关键,说明Project Genie是真的在计算角色与环境之间的物理碰撞,而不是简单把物体抽象成一个个立体图像,细节用视频补足。
细节层面也有加分项。起跳时,脚下会扬起灰尘,落地瞬间,人物会有轻微屈膝的缓冲动作。这些都增强了动作的可信度。当然,还是有点瑕疵,在最后一个画面中,角色实际应该落在水面上,但并没有出现水花效果,人物短暂悬浮在水面之上。
另外,更值得注意的是世界风格的稳定性。在人物进行了大幅度、连续的空间移动之后,整个世界并没有随之“变形”或风格漂移。金色树叶的色调、末日感的整体氛围、悬崖与断壁的结构关系,都被完整地保留下来,没有因为视角和位置变化而崩坏。
这一次纵向移动的测试,比单纯的平面行走更能体现,Project Genie 不只是“看起来像一个世界”,而是在尝试维持一个在运动中依然自洽的3D空间结构。
我们再来尝试一个第一视角,并且尝试给生成的世界换一个截然相反画风,观察 Project Genie 对整体风格切换的处理能力。
![]()
在初始状态下,世界细节依然保持在一个不错的水准。但真正的测试从这里开始,我们在已有世界的基础上,额外输入了一段整体改变世界风格的 prompt,试图将原本偏写实的环境,整体转化为像素画风。
![]()
结果并没有延续前几个案例中的惊艳表现。风格变化更多集中在角色层面,人物被明显像素化,队友也趋向于贴图式呈现,但作为主体的环境几乎没有发生根本变化,地形、光影和空间结构依然保持着偏写实的渲染方式。换句话说,风格切换并未真正作用于“世界”,而更像是叠加在角色之上的一层外观修改。
与此同时,风格修改还带来了一定的细节损失,比如信号烟雾弹消失,变成了灭火器,场景语义出现了明显的偏移。
Project Genie 可以在同一世界内维持结构稳定,但对已生成世界进行整体风格重写,仍然明显弱于从零生成时的表现。当然,用AI生成内容是一个反复抽卡的过程,也许多尝试几次,Project Genie 就可以给一个更加合理的世界。
1
Project Genie最大的意义是证明其可行性
如果把 Project Genie 放进更大的生成模型谱系中来看,它现在所处的位置其实非常清晰:世界模型,正在经历自己的「视频生成 1.0 时期」。
今天的视频生成模型,已经卷到了分辨率、运镜语言和叙事连贯性,很多作品看起来已经接近“可以直接作为内容使用”。但回到最早阶段,视频生成真正令人震撼的,并不是画面质量,而是那一刻人们意识到,画面,真的能连续地动起来。
Project Genie 所代表的世界模型阶段,与之高度相似。
它并不是在和游戏或影视内容比“画得多好”,而是在回答一个更基础的问题:一个由模型生成的世界,能不能在被持续操作时不迅速崩溃。
因此,Project Genie 在设计上做出了非常明确的取舍。它主动牺牲了分辨率、画面精度和生成时长,把算力优先用在维持一个可被反复进入、持续探索的环境。你能不能站在悬崖边缘停下,能不能跳下去,会不会撞上岩壁,移动之后世界风格是否还能保持一致,这些问题,远比“画面像不像某款游戏”更重要。
从技术层面看,Project Genie 能成立,并不是因为某一个单点突破,而是因为它同时满足了三件此前并不容易同时做到的事情:状态可持续、空间一致、行为可约束。
Project Genie(Genie3)的技术难点在于维护一个隐式的世界状态。用户的输入不再只是触发一次新的画面补全,而是被当作对世界状态的真实干预。角色是否能前进,取决于地形是否允许,是否会坠落,取决于重力和边界,世界风格是否延续,取决于状态是否被连续继承。
这意味着模型做的已经不只是“预测下一帧”,而是在给定历史、规则和动作条件的前提下,推演世界接下来应该如何演化。
也正因为如此,Project Genie 看起来既不像一个完整的游戏,也不像一个视频工具。它更像一个尚不成熟、但已经能够自洽运转的系统原型。
所以,Project Genie 现在最重要的意义,它第一次让普通用户直观地意识到:世界模型不只是论文里的概念,它真的可以被构建、被进入、被操作,并且在一定范围内持续成立。
![]()
点个“爱心”,再走 吧





京公网安备 11011402013531号