当前位置: 首页 » 资讯 » 新零售 » 正文

AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解

IP属地 中国·北京 编辑:郑佳 量子位 时间:2025-06-18 15:03:04

谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》?

没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为,70页的论文,Pokemon关键词出现59次。

其中特别报告了当AI控制的游戏角色濒临死亡时,Gemini 2.5 Pro会陷入“恐慌”状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。

这种恐慌行为出现过很多次,甚至观看直播的观众都已经能通过AI的行为模式,准确判断它什么时候在“恐慌”了。

事情开始于3月底,一位独立开发者Joel Zhang在Twitch上搭建了一个”Gemini玩宝可梦”的直播间,最初的目标只是直播播展示能玩完整游戏的智能体工具的开发过程。

结果Gemini 2.5 Pro超出预期,测试期间直接把游戏打通关了,成为宝可梦联盟冠军,进入名人堂,走上AI生巅峰。

虽然整个过程用了831个小时,相比人类玩家平均只需要几十个小时差得很远。但在正式使用固定的智能体工具打第二次时,通关时间只用了一半。

AI展现惊人游戏水平,复杂任务一个不落

这次的Gemini 2.5系列技术报告,详细记录了AI在玩游戏期间展现出的各种行为,在某些方面,它展现出了惊人的创造力。

比如有一次,AI被困在了一个由于游戏程序bug造成的软锁定死循环里,一般情况下这是个无解的困境。但Gemini 2.5 Pro竟然使用了“飞行”技能逃脱。

谷歌认为这不是正常游戏会遇到的情况,所可以肯定这种操作的训练数据没有泄露到模型的知识库中,是Gemini 2.5 Pro在推理阶段自己想出来的。

更惊艳的是AI的长期规划能力。当它第一次用火系宝可梦输给水系道馆馆主小霞之后,花了超过24小时专门把电系和草系宝可梦(对水系有克制作用)练到25级,然后成功复仇。

Gemini 2.5 Pro在处理游戏中的复杂任务的表现还包括:

获取隐藏技能

游戏的很多区域需要解锁隐藏技能才能继续,每个隐藏技能需要完成4个步骤:获取隐藏技能道具、抓一只能学会这个技能的宝可梦、加把它加入队伍、教它学会技能。

对AI来说每一步都可能涉及十几个子任务,例如05号技能闪光,人类玩家都需要查攻略完成一系列游戏任务,Gemini 2.5 Pro也成功完成。

游戏攻略

完成“狩猎地带”

这是游戏的特殊区域,每次进入要花500金币,进入后只能走500步,超过就会被强制踢出去,钱也打水漂了。如果连续失败太多次,可能连进门的钱都没了,基本等于游戏卡关。Gemini 2.5 Pro在第一次游戏中尝试了17次才成功,第二次优化后只用了5次。

地牢寻宝

这部分更考验记忆力和空间想象,AI必须在火箭队基地地下四层找到一个特定NPC掉落的电梯钥匙;在另一个11层大楼里找钥匙卡;在另一个三层建筑里找秘密钥匙。每个地下城布局都是迷宫,还有各种机关陷阱。Gemini 2.5 Pro不仅要记住去过哪里、打败了谁,还要管理宝可梦的血量、对付野生宝可梦和训练师。

双子岛迷宫(Seaform Island)

这是一个横跨5层的3D迷宫,需要把巨石推过不同楼层的洞口,最终堵住特定的水流才能通过,是对空间推理能力的终极考验。不仅要在脑海中构建整个迷宫的3D模型,还要规划推石头的路线,一步错就得重来。

有意思的是,Gemini在解决这个谜题时,还顺带发现了游戏代码里的一个bug,这个可能是AI第一次发现游戏代码的bug。

有网友详细介绍了这个Bug的原理,在解决一半谜题后主动重置再解决另一半,游戏开发者都没想到这个操作,所以留下了这个Bug。

AI也有“强迫症”和“思维定势”

Gemini 2.5 Pro在游戏中暴露出的一些问题,也让人哭笑不得。

幻觉问题:混淆不同游戏版本

在原版宝可梦红/蓝中,玩家需要从自动售货机买饮料(淡水、汽水或柠檬水)给口渴的守卫,才能通过关卡。但在火红/叶绿重制版中,需要的是特殊的“茶”道具。问题是,Gemini玩的是原版,根本没有茶这个道具,可AI就认定了必须找到茶,结果花了好几个小时满世界找一个根本不存在的东西。

上下文中毒现象(Context Poisoning)

当AI的目标设定、游戏总结等多处都被错误信息污染后,它会像被洗脑了一样,明明做着毫无意义的事情却坚信自己是对的。比如这段AI推理阶段的内心戏“让我试着穿过房子的入口,然后再出来,希望堵住入口的守卫可能会移动”,对于人类来说显然是荒谬的。

思维定势陷阱

当目标看起来近在咫尺时,AI往往会选择直接冲过去,结果发现此路不通。比如在火箭队基地的旋转地板谜题中,宝物和楼梯都在南边,必须绕一大圈才能到达。人类玩家可能会意识到”看起来近的路未必是对的”,但AI却经常在这种地方卡住。

为了减轻这些幻觉,在第二次通关的提示词中明确要求AI扮演一个对游戏完全陌生的玩家,忽略对游戏中事件、物品位置等先验知识。虽然这个策略起作用了,让AI不会混淆其他游戏版本的知识,但也阻碍了AI利用游戏常识过关的能力。

One More Thing

目前AI玩宝可梦的直播项目还在继续,并且Claude 4也加入了比赛,与Gemini 2.5 Pro同时开始,看两个模型谁能先通关。

到现在,Gemini 2.5 Pro已经先一步通关了,开始攻略下一款游戏《宝可梦黄》原版的困难模式。

你认为Claude 4 Opus最终能通关么?

标签: 游戏 宝可梦 模型 技能 玩家 迷宫 谷歌 目标 论文 能力 代码 钥匙 报告 任务 小时 谜题 水系 人类 工具 思维 陷阱 原版 空间 规划 技术 地下城 柠檬水 淡水 地板 汽水 问题 基地

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。