![]()
这项由麻省理工学院联合哈佛大学、剑桥大学等多所顶尖学府共同完成的研究发表于2026年,论文编号为arXiv:2602.17594v1。该研究团队首次提出了一个革命性的观点:要真正评估人工智能是否达到人类水平的通用智能,最好的方法就是让AI去玩人类创造的各种游戏。
人工智能发展到今天,已经在许多单一任务上表现卓越,比如下棋、翻译或者回答问题。但问题在于,现有的AI评估方式就像只考察学生会不会做数学题,却不知道他能否应对真实生活中的复杂挑战。真正的人类智能是什么样的呢?我们能够快速学习新事物,在复杂环境中灵活应变,面对从未见过的问题时也能找到解决方案。这种能力如何评估?
研究团队想到了一个绝妙的答案:游戏。人类创造的游戏本质上就是现实世界的缩影和训练场。从古老的围棋到现代的电子游戏,每一个游戏都在考验着人类的某些核心能力:战略规划、空间推理、记忆力、学习能力、社交技巧等等。如果一个AI系统能够像人类一样快速学会并玩好各种人类游戏,那它很可能已经具备了类人的通用智能。
基于这个洞察,研究团队开发了"AI游戏商店"——一个全新的人工智能评估平台。这个平台的核心理念是利用大语言模型自动生成基于真实人类游戏的标准化测试环境,然后让AI和人类在相同条件下进行游戏,比较他们的表现。
一、从人类游戏宇宙中寻找智能的真相
人类为什么要玩游戏?这个看似简单的问题背后隐藏着关于智能本质的深刻真相。从生物学角度来看,玩耍行为并不仅仅属于人类。从海豚到乌鸦,从猴子到大象,几乎所有高智能动物都会玩耍。科学研究表明,玩耍实际上是大自然进化出的一种学习机制——通过在安全的虚拟环境中模拟各种情况,动物能够磨练自己的认知能力和生存技能。
对人类而言,游戏的意义更为深远。每一个游戏都是现实世界某个方面的抽象化和浓缩版。策略游戏锻炼我们的长期规划能力,动作游戏提升我们的反应速度和空间协调能力,解谜游戏训练我们的逻辑推理,社交游戏则考验我们理解他人意图的能力。可以说,游戏是人类为自己创造的认知能力训练营。
研究团队将人类能够创造和享受的所有游戏定义为"人类游戏宇宙"。这个概念的精妙之处在于,它既包含了已经存在的游戏,也涵盖了人类未来可能创造的所有游戏。这个宇宙是无限且开放的,但同时又有明确的边界——只有人类能够设计出来并且其他人类能够理解和享受的游戏才属于这个宇宙。
想象一下这样的场景:如果有一个外星智慧生命体想要评估自己是否真正理解了人类智能,最好的方法就是看它能否学会人类的各种游戏。从简单的井字棋到复杂的策略游戏,从需要精确操作的动作游戏到考验创造力的开放世界游戏,每一类游戏都在测试智能体的不同能力。如果这个外星生命体能够在所有这些游戏中都达到人类的平均水平,我们就有理由相信它确实掌握了类人的通用智能。
研究团队认为,这种基于游戏的评估方式比传统方法有着无可比拟的优势。传统的AI基准测试往往只关注单一能力,比如语言理解或数学计算。但游戏天然地要求多种能力的综合运用。以《愤怒的小鸟》为例,玩这个游戏需要物理推理能力(理解弹道和碰撞),空间认知能力(判断角度和距离),以及规划能力(选择最优的攻击顺序)。一个在这个游戏中表现出色的AI系统,必然在多个认知维度上都达到了相当的水平。
更重要的是,游戏评估具有文化相关性和生态有效性。这些游戏不是研究人员在实验室里人工设计的抽象任务,而是真实的人类在日常生活中选择玩的活动。如果一个AI系统能够理解和掌握这些游戏,它就证明了自己能够理解和适应人类的思维方式和行为模式,这对于构建真正有用的人工智能系统至关重要。
二、AI游戏商店:将理想变为现实的技术平台
理论上,要评估AI是否达到人类水平的通用智能,最理想的方法是让它学会人类游戏宇宙中的所有游戏。但在实践中,这面临着巨大的技术挑战。全世界有数百万个不同的游戏,它们运行在不同的平台上,使用不同的控制方式,遵循不同的规则。要为每个游戏都单独开发AI接口,几乎是不可能完成的任务。
研究团队巧妙地解决了这个问题。他们开发的AI游戏商店采用了一个四阶段的自动化流程,就像一个高效的游戏制造工厂。
第一个阶段是游戏筛选和过滤。研究团队首先从苹果应用商店和Steam等主流游戏平台收集了7500个热门游戏的信息。接着,他们让大语言模型对每个游戏进行评分,筛选标准包括游戏是否能在几分钟内学会、是否能用网页技术实现、是否有明确的评分标准等。这个过程就像是为即将到来的考试挑选最具代表性的题目。
第二个阶段是游戏生成和优化。通过详细的游戏描述,大语言模型能够生成一个功能完整的网页版游戏。但机器生成的游戏往往存在各种问题——可能太简单、太困难,或者有技术漏洞。因此,研究团队设计了一个人机结合的优化流程。首先,系统会自动测试生成的游戏,发现并修复明显的技术问题。然后,真人玩家会试玩这个游戏,给出改进建议,系统再根据这些反馈进一步完善游戏。这个过程通常需要4到5轮迭代,每轮约2分钟,直到游戏达到既有趣又具有挑战性的标准。
第三个阶段是认知能力标注。为了理解每个游戏考验的是哪些认知能力,研究团队开发了一套包含七个维度的评估体系:视觉处理、空间时间协调、记忆、规划、世界模型学习、物理推理和社会推理。每个游戏都会在这七个维度上获得0到5的评分,0表示不需要该能力,5表示需要极高水平的该能力。这样的标注让研究人员能够精确诊断AI系统在哪些认知能力上存在不足。
第四个阶段是模型评估。在这个阶段,人类玩家和AI模型在相同的条件下玩游戏,系统记录他们的表现并进行对比分析。由于目前的AI模型响应速度较慢,研究团队设计了一个特殊的游戏界面:游戏每秒会暂停一次,询问AI下一秒要执行什么操作,然后继续运行。虽然这不是最理想的测试方式,但在技术条件允许的范围内,这已经是相当公平的比较了。
整个流程的精妙之处在于它的可扩展性。一旦基础设施搭建完成,生成和测试新游戏变得非常高效。研究团队平均只需30分钟就能完成一个新游戏从概念到可测试版本的全过程。更重要的是,人类玩家还可以在现有游戏基础上创造变体版本,这意味着从少数几个游戏概念就能衍生出大量测试场景,有效避免了AI系统通过过度训练特定游戏而获得虚假高分的问题。
通过这种方式,AI游戏商店成功地将"人类游戏宇宙"这个抽象概念转化为了具体可操作的测试平台。它不仅解决了技术实现的难题,还保持了原始概念的核心价值——通过人类真正喜欢的游戏来评估AI的通用智能水平。
三、当前AI的真实表现:令人意外的巨大差距
当研究团队让七个最先进的大语言模型——包括GPT-5.2、Claude-Opus-4.5、Gemini-2.5-Pro等业界顶尖模型——与106名普通人类玩家在100个游戏上一决高下时,结果令人震惊。
最优秀的AI模型GPT-5.2的平均得分仅为人类中位数的8.5%。这意味着什么?如果我们把人类玩家的平均表现定为100分,那么目前最强的AI只能得到不到9分。这个差距之大,超出了大多数人的预期。要知道,这些AI模型在其他许多任务上已经达到甚至超越了人类水平,比如语言理解、数学计算、代码编写等。但在游戏这个看似"简单"的领域,它们却表现得如此不堪。
更令人印象深刻的是时间效率的对比。人类玩家在每个游戏上只花费2分钟,就能达到相当不错的成绩。而AI模型为了做出每一个决策,平均需要思考几分钟时间,完成同样的游戏任务需要15到20倍的时间。这就好比一个学生做数学题,人类学生可能几分钟就能解出答案,而AI却需要花费几个小时,最终得分还远低于人类。
深入分析这些数据,研究团队发现了一个有趣的现象:AI模型的表现呈现明显的双峰分布。大约三分之二的游戏中,AI能够取得一些进展,虽然通常只能达到人类表现的10%到30%,但至少证明它们理解了游戏的基本玩法。然而,在剩下三分之一的游戏中,AI几乎完全失败,得分不到人类平均水平的1%,这表明它们甚至没有理解游戏的基本规则或目标。
什么样的游戏让AI感到困难?通过分析游戏的认知能力需求,研究团队找到了答案。AI最大的弱点集中在三个关键领域:记忆、规划和世界模型学习。
记忆能力的缺陷表现得尤为明显。许多游戏需要玩家记住之前看到的信息,比如在迷宫游戏中记住已经探索过的区域,或者在卡牌游戏中记住已经翻开的牌面。尽管AI有一个"记事本"功能可以记录重要信息,但它们似乎不知道该记录什么,或者如何有效利用这些记录。这就像一个健忘症患者试图玩记忆游戏,即使有纸笔帮助,也很难取得好成绩。
规划能力的不足同样严重。许多游戏需要玩家思考几步之后的情况,比如在推箱子游戏中,你需要预见到当前的移动会对后续步骤产生什么影响。AI模型往往只能看到眼前一步,缺乏长期战略思维。它们就像只会走一步棋的新手棋手,面对需要深度规划的情况时束手无策。
世界模型学习的困难可能是最根本的问题。许多游戏并不会直接告诉你所有规则,而是需要你通过尝试来发现游戏的运行机制。比如,你需要通过实验来发现某个按钮会产生什么效果,或者某种道具有什么用途。AI模型在这方面表现得像是缺乏好奇心的学习者,它们不会主动探索和试验,也不善于从失败中总结规律。
更有趣的是,研究团队发现游戏的认知复杂度与AI表现之间存在强烈的负相关关系。那些只需要一种认知能力的简单游戏,AI还能勉强应付。但随着游戏需要的认知能力种类增加,AI的表现急剧下降。这说明当前的AI系统虽然在单一任务上可能表现不错,但在需要多种能力协调配合的复杂任务中,它们的不足就暴露无遗。
这些发现具有深远的意义。它们提醒我们,尽管AI在某些专业化任务上已经超越人类,但在需要类人通用智能的综合性任务中,我们仍然有很长的路要走。这也解释了为什么AI在现实世界的应用中仍然经常出现意想不到的失败——现实世界正是一个需要多种认知能力无缝配合的复杂环境。
四、深度透视:AI认知能力的精细诊断
研究团队创造性地将每个游戏在七个认知维度上进行了详细标注,这就像为每个游戏制作了一张"认知能力体检表"。通过这种方式,他们不仅能够看到AI在哪些游戏上表现不佳,更重要的是能够精确诊断出AI在哪些基础认知能力上存在缺陷。
视觉处理能力是最基础的认知技能,涉及识别、匹配和分类视觉对象的能力。在这个维度上,AI的表现相对较好,这并不意外,因为计算机视觉技术已经相当成熟。但即便如此,当游戏场景变得复杂,存在遮挡或需要在混乱背景中找到特定物体时,AI的表现仍然明显低于人类。
空间时间协调能力考验的是精确定时和空间导航的能力,比如在《愤怒的小鸟》中需要精确控制发射角度和力度。有趣的是,研究团队特别测试了那些不需要快速反应的游戏(比如回合制策略游戏),发现AI的表现并没有显著改善。这说明问题不在于AI的"反应速度",而在于它们对空间关系和时间序列的理解能力。
记忆能力的缺陷最为突出。人类具有强大的工作记忆和情境记忆,能够在游戏过程中自然地记住重要信息并在需要时调用。AI虽然有技术上的"记忆存储"功能,但它们不知道什么信息值得记住,也不善于组织和检索这些信息。这就像一个拥有完美录音设备的人,却不知道该录什么,也不知道如何从录音中找到需要的信息。
规划能力要求玩家能够模拟未来的游戏状态,评估不同行动的长期后果。在《水排序》这样的逻辑谜题中,你需要计算出一系列倒水操作的最优序列。AI在这类任务中的失败表明,它们缺乏有效的"心理模拟"能力,无法在头脑中构建和运行游戏世界的模型。
世界模型学习可能是最能体现通用智能的能力。在许多游戏中,规则并不是明确给出的,而需要玩家通过实验和观察来发现。比如在《Baba Is You》这样的游戏中,玩家需要发现移动文字方块会如何改变游戏规则。AI在这方面的困难反映了它们缺乏主动探索和假设验证的能力,这正是科学发现和创新思维的核心。
物理推理涉及对重力、轨迹、碰撞等物理现象的理解。虽然AI在简单的物理模拟任务中表现尚可,但在需要复杂物理交互的游戏中,比如涉及多个物体相互作用的《愤怒的小鸟》复杂关卡,它们的表现明显不如人类。
社会推理是最高层次的认知能力,涉及理解其他智能体的意图、信念和情感。由于研究中的大多数游戏都是单人游戏,这个维度的测试相对有限。但即使在简单的需要预测NPC行为的游戏中,AI也经常表现出对"他人心理"理解的不足。
最重要的发现是,随着游戏需要的认知能力种类增加,AI的表现呈指数级下降。那些只需要一种核心能力的游戏,AI还能达到人类表现的30%到40%。但需要三种或更多认知能力协同工作的游戏,AI的表现往往不到人类水平的10%。这个现象揭示了当前AI架构的一个根本限制:它们缺乏有效整合多种认知能力的机制。
这种详细的认知诊断具有重要的指导意义。它不仅告诉我们AI在哪里不足,更重要的是指明了改进的方向。要构建真正的通用人工智能,我们需要重点攻克记忆整合、长期规划和主动学习这些核心能力,并且需要找到让多种认知能力有效协同工作的架构设计。
五、游戏背后的科学洞察与未来展望
通过这项研究,我们看到了一个令人深思的对比:AI在许多专业化任务上已经超越人类,却在人类儿童都能轻松掌握的游戏中败得一塌糊涂。这个现象背后隐藏着关于智能本质的深刻启示。
当前AI系统的成功很大程度上建立在模式识别和统计关联的基础上。它们能够在海量数据中找到复杂的规律,并基于这些规律做出预测或生成内容。但游戏需要的是完全不同类型的智能——适应性学习、创造性问题解决、多目标优化和实时决策。这些能力更接近我们所理解的"真正的智能"。
游戏之所以成为智能的试金石,是因为它们具有几个独特的特征。首先,游戏是动态的,状态不断变化,需要持续的适应和学习。其次,游戏是交互的,你的每个行动都会影响后续的选择空间。最后,游戏是目标导向的,但通往目标的路径往往不是唯一的,需要创造性和灵活性。
研究团队计划将AI游戏商店发展成一个持续进化的评估平台。他们设想了几个重要的扩展方向。首先是增加游戏的多样性和复杂性,特别是那些需要长期规划和复杂社交互动的游戏。目前的100个游戏大多是可以在几分钟内学会的休闲游戏,未来需要包含更多需要小时甚至天数才能掌握的复杂游戏。
其次是改进AI与游戏的交互方式。当前的系统由于技术限制,AI只能通过每秒做出几个离散选择来玩游戏,这远远不如人类的实时交互能力。未来的系统应该能够支持更自然、更流畅的交互模式,让AI能够像人类一样实时响应游戏状态的变化。
更有野心的是引入多智能体游戏环境。真正的通用智能不仅要能够解决单人问题,还要能够在复杂的社交环境中与其他智能体合作或竞争。通过让多个AI在同一个游戏中互动,或者让AI与人类玩家实时对战,我们能够测试AI的社交智能和适应能力。
研究团队还计划开发更精细的认知诊断工具。当前的七维度评估体系只是一个开始,未来可能需要更细化的认知分类,以便更准确地定位AI系统的具体优势和劣势。这种精确诊断不仅有助于改进AI系统,也能为认知科学和心理学研究提供新的工具。
从更宏观的角度来看,这项研究提出了一个重要问题:我们应该如何定义和衡量人工智能的进步?传统的基准测试往往关注单一维度的性能提升,但真正的智能是多维度能力的有机整合。游戏评估提供了一个更holistic的视角,让我们能够观察AI系统在面对复杂、动态、多目标任务时的综合表现。
这种评估方式也具有重要的社会意义。如果我们的目标是创造能够真正帮助人类、与人类和谐共处的AI系统,那么这些系统就必须能够理解和适应人类的思维方式。游戏恰恰是人类思维方式的直接体现,一个能够理解人类游戏的AI,更有可能理解人类的需求、价值观和行为模式。
当然,这项研究也有其局限性。当前的游戏主要来自西方的数字游戏平台,可能无法完全代表全球范围内的人类游戏文化。未来的研究需要包含更多样化的文化背景和游戏类型,包括传统的棋盘游戏、体感游戏、甚至现实世界的体育运动。
另一个挑战是如何处理游戏中的随机性和不确定性。许多游戏包含运气成分,这使得单次游戏的结果并不能完全反映玩家的能力。研究团队需要开发更精确的统计方法,来区分真正的智能表现和随机波动。
说到底,AI游戏商店不仅仅是一个技术评估平台,它更像是一面镜子,让我们看清当前AI技术的真实水平,也看清了通向真正通用人工智能的路径。这项研究告诉我们,创造真正的通用AI不仅仅是技术问题,更是对智能本质的深度理解问题。
游戏教会了我们,真正的智能不是简单的模式识别或数据处理,而是在复杂、动态、不确定的环境中持续学习、适应和创新的能力。这种能力的获得,可能需要我们重新思考AI系统的基础架构,从当前的静态模型转向更动态、更灵活、更具适应性的智能系统。
Q&A
Q1:AI游戏商店是什么?
A:AI游戏商店是麻省理工学院等机构开发的人工智能评估平台,通过让AI和人类玩相同的游戏来测试AI的通用智能水平。该平台使用大语言模型自动从热门游戏中生成标准化测试版本,包含了100个不同类型的游戏,覆盖视觉处理、记忆、规划等七个认知维度。
Q2:目前最强的AI在游戏中表现如何?
A:表现令人意外地差。最强的GPT-5.2模型平均只能达到人类表现的8.5%,而且需要15-20倍的时间才能完成同样的任务。AI在大约三分之一的游戏中几乎完全失败,主要困难集中在需要记忆、规划和世界模型学习的游戏上。
Q3:为什么用游戏来评估AI的通用智能?
A:因为人类创造的游戏是现实世界的抽象和缩影,每个游戏都在考验特定的认知能力组合。游戏需要多种智能能力协同工作,比单一任务测试更能反映真正的通用智能水平。如果AI能够像人类一样快速学会并玩好各种游戏,就证明它具备了类人的综合认知能力。





京公网安备 11011402013531号