当前位置：首页 » 资讯 » 新科技 » 正文

刚刚！谷歌内部揭秘Genie 3：Sora后最强AI爆款，开启世界模型新时代

IP属地中国·北京 编辑：顾青青新智元 时间：2025-08-17 14:03:47

新智元报道
编辑：KingHZ
Genie 3来了！这或许是最接近「模拟世界」的AI魔法。只需一句话，它就能生成一个动态、可互动的世界——角色能互动、下水会溅起水花，甚至还能记住一分钟前的细节。DeepMind研究者直言：Genie 3是通向AGI的关键一步。
Genie 3是有史以来最先进的世界模型之一。
仅通过文本，它能够实时生成完全互动、高度一致的世界。
它不仅是DeepMind积累的结晶，还是通向AGI和具身智能体的关键一步。
但Genie 3是如何构建的？未来的世界模型又是什么样？
刚刚，谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter，在a16z的访谈中，分享了他们的观点。
这次对话提供了对Genie 3的第一手洞察。
主持人Justine Moore发推表示：「Genie 3在网络上引发热潮」。
他总结了深入探讨的要点：

Genie3是由两个DeepMind项目（Veo 2和Genie 2）合作完成的成果。

实时、互动的世界模型有很多潜在应用。

但应用并不是推动研究的主要动力——它们是从用户使用模型的过程中自然涌现出来的。

Genie 3可以保留最长达一分钟的空间记忆。

物理规律是模型的「自然产物」，并会随着训练数据的规模和深度而不断提升。

目前还没有一个「终极模型」能够同时具备Veo 3和Genie 3的所有能力。
Genie 3：AI新魔法
如果说LLM的原生图像编辑功能，「动动嘴PS」是「言出法随」，那Genie 3这次的新特性叫什么？
只需输入文本提示，Genie 3即可生成动态世界。用户可以实时进行探索，每秒高达24帧，分辨率为720p。
十多年来，谷歌DeepMind一直致力于模拟环境的研究。
Genie 3是他们最新最强的「世界模型」，是通向通用人工智能（AGI）的关键一步，因为它能让AI智能体在无限丰富的模拟环境中进行训练。
去年，他们推出了首批基础世界模型Genie 1和Genie 2，它们能为智能体生成全新的环境。此外，他们还通过Veo 2和Veo 3等视频生成模型，不断提升对直观物理的理解能力。
这些模型在世界模拟的不同能力上都取得了进展。Genie 3是谷歌首个支持实时交互的世界模型，同时提升了一致性和真实感。
在生成视频时长、世界一致性、内容的多样性、特殊记忆等多个方面，Genie 3都实现了突破。
它甚至可以让个人创造自己的游戏世界、训练强化学习的智能体、机器人研究等。
所有这些应用基本上都源于一个核心能力：只用几句话就能生成一个完整的世界。
最关键的新特性是：特殊记忆。
比如：一个角色拿着刷子在墙上刷漆，然后他移动到墙的另一边去刷，接着又回到原来的位置，结果之前刷的痕迹还在。
特殊记忆（special memory）是DeepMind团队有意设计的目标，但最终的效果好得出乎意料。
即便是参与Genie 3的内部成员，第一次看到上面刷墙的示例时也不敢相信，需要再三观看、逐帧检查，才确定这真的是模型生成的。
Genie 3的一致性非常高：建筑物左侧的树木在整个交互过程中始终保持一致，即使它们时而进入视野时而消失
其实，Genie 2就已经具备了一些「记忆能力」。但当时，整个AI界太多令人激动的模型发布，比如Veo 2模型几天后也发布了。而且，当时谷歌主打的卖点是「可以生成新的世界」，所以记忆能力就没被强调出来。
到了Genie 3，在「记忆」上，谷歌DeepMind下了更大的决心，明确地把「增强记忆能力」作为核心目标之一。
当时设定的目标是：
超过一分钟的记忆、
支持「实时生成」、
还能提升「分辨率」。
其实，这几个目标本身是互相矛盾的，但谷歌无所畏惧。
说实话，直到项目快结束时，在看到最终样本的那一刻，他们依然感到震撼。这种成果即使是预期中的，真的实现的时候还是非常令人兴奋。毕竟，研究项目永远不会有百分百的确定性。
在设计上，他们还有一个明确的方向，就是不采用「显式表示法」。市面上已有一些方法，比如用NeRF或Gaussian Splatting等技术，通过构建明确的3D世界结构，来达到一致性。这些方法很好，在某些应用上效果不错。
但他们坚持让模型「逐帧生成」，这种方式对模型的泛化能力、适应多样世界的能力更有帮助。
智能涌现，惊喜不断
就像其他生成式模型一样，随着Scaling，效果确实会提升，这已经不是什么秘密了。
尽管不如语言模型在推理能力上的涌现表现，Genie 3依然涌现出一些令人惊讶的行为。比如说，如果一个角色靠近一扇门，模型可能就会「推测」角色应该打开门；这类符合人类直觉的行为，模型现在能在一定程度上表现出来了。
还有就是对语言的理解在不断变好，生成的内容也越来越真实，视觉效果更自然。
从Genie 2到Genie 3的提升非常明显，特别是在「模拟现实世界能力」上有巨大飞跃。
比如物理效果的表现——像水的模拟、光照的变化，都非常惊艳。
现在已经到了一个地步，哪怕是非专业人士，看了之后也会觉得是真实拍摄的视频。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

安钛克推出P7S机箱：无“光污染”，标配四把无灯风扇

等死与找死？FD-SOI何以成为中国半导体的一条活路

第三届全国人力资源服务业发展大会启幕安徽AI创新成果绽放活力

MIT模拟1.5亿打工人：程序员竟是安全？AI首波「血洗」1.2万亿白领薪资！

“美国人质疑这段视频造假，却不知中国制造业有多强”

第四次冲刺上市，Soul讲的什么新故事？

全站最新

安钛克推出P7S机箱：无“光污染”，标配四把无灯风扇

等死与找死？FD-SOI何以成为中国半导体的一条活路

第三届全国人力资源服务业发展大会启幕安徽AI创新成果绽放活力

MIT模拟1.5亿打工人：程序员竟是安全？AI首波「血洗」1.2万亿白领薪资！

热门推荐

苹果英特尔有望在芯片上再度合作由英特尔代工部分M系列芯片

蔚来全新ES8仅70天交付破2万创40万元以上纯电车型最快纪录

iPhone 17e外观提前揭晓：刘海消失酷似单摄版iPhone 17

iOS微信8.0.66正式版发布：彻底抛弃老系统、截图转发一键搞定

科技昨夜今晨1130：中国电影单日票房再破6亿

安钛克推出P7S机箱：无“光污染”，标配四把无灯风扇

AI周报 | DeepSeek开源奥数金牌水平模型；前OpenAI 联创称规模扩展时代已终结

等死与找死？FD-SOI何以成为中国半导体的一条活路

第三届全国人力资源服务业发展大会启幕安徽AI创新成果绽放活力

MIT模拟1.5亿打工人：程序员竟是安全？AI首波「血洗」1.2万亿白领薪资！

“美国人质疑这段视频造假，却不知中国制造业有多强”

第四次冲刺上市，Soul讲的什么新故事？

F-150 Lightning宣传的前向感知系统没装，福特在美被起诉

苹果A20系列芯片前瞻：2nm工艺与封装升级带来性能飞跃

瘫痪男子借助Neuralink脑机接口玩《战地6》，可用意念瞄准