![]()
这项由微软研究院联合韩国科学技术院共同完成的开创性研究,于2026年发表在国际学习表征会议(ICLR 2026)上。对于那些想要深入了解这项研究的读者,可以通过论文编号arXiv:2602.23008v1查询完整的技术细节。
一、从困在迷宫里的AI说起
当我们让人工智能去完成一些需要多步骤思考的复杂任务时,经常会遇到一个令人沮丧的现象:这些AI智能体就像一个总是在同一个地方打转的人,明明应该去探索新的路径,却总是重复着同样的错误。
这种现象在AI领域被称为"探索不足"问题。就好比你要求一个人在一个陌生的城市里找到最好的餐厅,但这个人却始终只在熟悉的几条街道上转悠,从来不敢尝试走进那些看起来陌生但可能藏着惊喜的小巷。大型语言模型虽然拥有丰富的预训练知识,但在面对需要主动探索的环境时,往往倾向于依赖已有的知识模式,而不愿意冒险尝试可能失败但能带来新发现的行动。
更具体地说,当前的AI智能体在执行科学实验或网购这样的多步骤任务时,经常会卡在某个环节上。比如在虚拟科学实验中,AI被要求"打开红色灯泡",它可能会一直尝试在当前房间里寻找红色灯泡,即使这个房间里根本没有。正确的做法应该是先探索其他房间,找到灯泡的位置,然后再想办法点亮它。但现有的AI系统往往缺乏这种系统性探索的能力。
二、记忆与学习的巧妙结合
面对这个挑战,微软研究院的科学家们提出了一个极其巧妙的解决方案,他们称之为"探索性记忆增强在线和离线策略优化"(EMPO?)。这个名字虽然听起来复杂,但其核心思想却可以用一个简单的比喻来理解。
设想一位经验丰富的侦探在调查一系列相关案件。这位侦探不仅会在每次调查中尝试新的线索追踪方法,还会仔细记录每次调查的心得体会。更重要的是,他会将这些经验内化为自己的直觉和判断能力,这样即使在没有案件记录的情况下,他也能凭借积累的经验做出正确的判断。
EMPO?框架正是模拟了这样的学习过程。它让AI智能体具备了三种不同的"调查模式":有时候它会像新手侦探一样纯粹依靠直觉行动,有时候它会查阅以往的案件记录来指导当前的行动,而在学习阶段,它还会将从记录中学到的经验转化为自己内在的能力。
这种设计的精妙之处在于,它不仅让AI能够利用外部记忆来改善探索效果,更重要的是,它能够将这些外部指导逐渐内化到AI的参数中,使AI即使在没有外部记忆辅助的情况下也能表现出色。这就像一个学生通过查阅笔记来学习,但最终目标是不看笔记也能答对考试题目。
三、三种模式的协调配合
EMPO?框架的核心在于它设计了一套精巧的多模式系统,就像一个训练有素的调查团队,根据不同情况采用不同的工作方式。
在执行任务的阶段,AI智能体会在两种模式之间随机切换。第一种是"裸奔模式",智能体完全依靠自己当前的判断能力来行动,就像一个经验丰富的侦探凭直觉办案。第二种是"记忆辅助模式",智能体会先查询自己的记忆库,寻找与当前情况相似的历史经验,然后基于这些"案例档案"来制定行动策略。
每当一次任务结束后,无论成功还是失败,AI都会像一个善于反思的侦探一样,总结这次经历的关键要点。这些总结不是简单的成功或失败记录,而是更深层的洞察。比如,"在寻找红色灯泡的任务中,直接在走廊里寻找是无效的,应该先探索相邻的房间",或者"要创造绿色颜料,需要先在艺术工作室找到蓝色和黄色颜料,然后进行混合"。
在学习阶段,EMPO?展现出了它最独特的创新之处。对于那些在记忆辅助下完成的任务,系统会采用两种不同的学习策略。第一种是"在线学习",就像学生按照参考答案来复习,系统会强化那些在记忆指导下取得好结果的行动模式。第二种是"离线学习",这是更加巧妙的设计:系统会问自己"如果我当时没有记忆提示,我是否还能做出同样好的决策?"然后针对性地训练这种不依赖外部提示的能力。
这种离线学习可以理解为一种"知识蒸馏"过程。就像一个学生通过反复练习,最终能够不看笔记就掌握知识要点一样,AI通过这种方式将外部记忆中的智慧逐渐转化为内在的能力。
四、防止学习过程中的"翻车"
在实际的技术实现中,研究团队发现了一个有趣的现象:当AI尝试从记忆指导的经验中学习时,有时候会出现训练不稳定的问题,就像一个学生在从参考答案学习时,有时候会因为过度依赖答案而忘记了思考的基本逻辑。
为了解决这个问题,研究人员引入了一个巧妙的"安全阀"机制。当系统检测到某些决策的置信度过低时(具体来说,是当模型对某个行动的预测概率低于设定阈值时),它会暂时忽略这些不确定的决策,专注于那些更有把握的学习机会。这就像一个谨慎的学生,在不确定答案的时候会暂时跳过,先巩固那些已经理解的知识点。
另外,为了确保AI始终保持探索新领域的动力,研究团队还设计了一个"好奇心机制"。这个机制会给AI遇到新情况时提供额外的奖励,鼓励它去探索那些从未见过的场景。具体来说,当AI遇到与历史经验差异较大的新情况时,系统会自动给予额外的奖励分数,这样AI就不会因为害怕失败而总是选择安全的老路。
五、在虚拟世界中的精彩表现
为了验证这个框架的有效性,研究团队选择了两个极具挑战性的虚拟环境来进行测试。这两个环境分别是ScienceWorld(科学世界)和WebShop(网络购物),它们都需要AI进行复杂的多步骤推理和探索。
在ScienceWorld环境中,AI需要完成各种科学实验任务,比如组装电路来点亮特定颜色的灯泡,或者混合化学物质来创造特定颜色的颜料。这些任务的复杂性在于,AI不仅需要理解任务目标,还需要在虚拟环境中主动探索,找到必需的工具和材料,然后按照正确的步骤完成实验。
以"点亮红色灯泡"这个任务为例,传统的AI智能体往往会在初始房间里反复尝试寻找红色灯泡,即使这个房间里并没有。当尝试失败后,它们通常不知道应该去探索其他区域。而使用EMPO?框架的AI在几次尝试后,就能够从记忆中学到"当前位置没有目标物品时,应该系统性地探索其他房间"这样的策略。更重要的是,经过多次训练后,即使不依赖记忆提示,AI也能自主地采用这种探索策略。
在WebShop环境中,AI需要根据用户的购物需求,在复杂的电商网站上搜索、筛选和购买商品。这个过程涉及理解用户需求、导航网站界面、比较不同商品的属性和价格等多个步骤。传统的AI往往会在某个步骤上卡住,比如不知道如何有效地使用搜索功能,或者在面对多个相似商品时不知道如何做出最优选择。
实验结果显示,EMPO?框架在这两个环境中都取得了显著的性能提升。在ScienceWorld中,相比于当前最先进的在线强化学习方法GRPO,EMPO?的表现提升了128.6%。在WebShop环境中,提升幅度也达到了11.3%。这些数字背后的意义在于,AI不再是在同一个地方打转,而是真正学会了系统性的探索和问题解决。
六、从依赖记忆到独立思考的转变
EMPO?框架最令人印象深刻的特性之一,是它展现出的从"依赖外部提示"到"独立自主判断"的学习曲线。这个过程就像一个学生从需要查阅笔记到能够独立解题的成长过程。
在训练的早期阶段,AI严重依赖记忆中的经验提示来做出决策。就像一个新手厨师需要不断查看菜谱才能做出一道菜一样,AI此时还无法独立处理复杂的任务。但是随着训练的进行,一个有趣的现象出现了:即使在完全没有记忆提示的情况下,AI的表现也在稳步提升。
更加令人惊喜的是,当研究团队测试这个经过训练的AI在全新的、从未见过的任务上的表现时,他们发现AI表现出了出色的适应能力。即使面对完全陌生的任务,AI只需要很少的几次尝试就能够利用记忆机制快速学会新的策略。这就像一个经验丰富的问题解决者,虽然面对的是新问题,但能够quickly地找到解决思路。
举个具体的例子,当研究团队让一个在生物学任务上训练的AI去解决电学实验问题时,AI在没有任何参数更新的情况下,仅仅通过几次试验和记忆积累,就能在新任务上取得良好的表现。这种跨领域的适应能力表明,EMPO?不仅仅是在训练特定的任务技能,更是在培养AI的通用问题解决能力。
七、与其他方法的比较优势
为了充分评估EMPO?的效果,研究团队将其与多种现有方法进行了全面比较。这些对比方法代表了当前AI领域的不同技术路径,每一种都有其独特的特点和适用场景。
首先是Reflexion方法,这种方法纯粹依赖外部记忆,就像一个总是需要查阅笔记本的学生。虽然它能够利用历史经验来改善决策,但由于没有参数更新机制,它的学习能力相对有限,往往在复杂任务上很快就遇到性能瓶颈。
其次是Retrospex这样的离线强化学习方法,它们类似于通过大量历史案例进行学习的专家系统。这些方法的优势在于能够从大量数据中提取有价值的模式,但缺点是在面对与训练数据差异较大的新情况时,往往表现不佳。
还有GRPO这样的在线强化学习方法,它们能够在与环境的实时互动中不断学习和改进。然而,由于缺乏有效的探索机制,这些方法经常会陷入局部最优解,就像一个人总是走同样的路线而不知道还有更好的选择。
相比之下,EMPO?的优势在于它巧妙地结合了记忆辅助的探索能力和参数更新的学习能力。这就像培养了一个既能查阅资料又能独立思考的全能型问题解决者。实验结果显示,在几乎所有的任务类型中,EMPO?都显著优于这些单一策略的方法。
特别值得注意的是,在一些任务中,纯粹的参数学习方法甚至表现得比简单的记忆方法还要差。这种现象说明,缺乏有效探索机制的学习可能会让AI陷入错误的行为模式,而难以自我纠正。EMPO?通过其混合策略成功地避免了这个陷阱。
八、技术实现的精巧之处
在技术实现层面,EMPO?展现出了多个精巧的设计细节,这些细节虽然看似微小,却对整体性能产生了重要影响。
记忆检索机制采用了基于语义相似度的智能匹配算法。当AI面对当前情况时,它不是简单地查找完全相同的历史经验,而是寻找那些在本质上相似的情况。这就像一个有经验的医生,虽然每个病人的症状可能略有不同,但能够识别出相似的疾病模式。这种语义匹配确保了AI能够从相关的历史经验中获得有价值的指导,而不是被表面的差异所迷惑。
在记忆生成方面,系统不是简单地记录成功或失败的结果,而是让AI自己总结每次经历的深层洞察。这些总结通常是简洁但富有洞察力的句子,比如"电路连接需要确保正极和负极的正确匹配"或"混合颜料时需要在专门的工作区域进行操作"。这种自我反思的机制确保了记忆内容的质量和实用性。
为了防止记忆系统变得过于庞大和混乱,研究团队还设计了一个智能的记忆管理机制。系统会自动识别和删除重复或过时的记忆条目,保持记忆库的精简和高效。同时,它会根据记忆条目的使用频率和效果来调整它们的优先级,确保最有价值的经验总是能够被优先检索到。
九、计算效率的平衡艺术
虽然EMPO?带来了显著的性能提升,但研究团队也坦诚地分析了这种方法在计算效率方面的代价。相比传统的强化学习方法,EMPO?需要额外的计算资源来处理记忆检索、生成和管理。
具体来说,记忆相关的操作大约增加了19%的训练时间。这部分额外时间主要用于在每次任务结束后生成经验总结,以及在需要记忆辅助时进行相似度检索。虽然这确实增加了计算成本,但研究团队通过时间-性能曲线分析发现,即使考虑到这些额外的计算时间,EMPO?仍然比传统方法更加高效,因为它能够更快地达到更好的性能水平。
研究团队还指出,随着AI能力的提升,这种对外部记忆的依赖会逐渐减少。换句话说,虽然训练阶段需要额外的计算资源,但训练完成后的AI在实际应用中并不需要这些记忆支持,因为它已经将关键的经验内化为自身的能力。这就像投资教育的道理:虽然学习阶段需要投入更多资源,但最终培养出的能力会带来长期的回报。
十、未来发展的无限可能
EMPO?框架的成功不仅解决了当前AI智能体探索能力不足的问题,更重要的是它为未来的AI发展开辟了新的可能性。这个框架的核心思想可以扩展到更多领域和更复杂的任务中。
在数学推理领域,AI可以通过类似的机制来积累解题经验,逐渐从需要查阅公式和定理到能够独立推导复杂的数学证明。在代码编程方面,AI可以从简单的代码片段学习开始,逐渐掌握复杂的软件架构设计能力。在多模态任务中,AI可以学会协调处理文本、图像、声音等不同类型的信息,就像一个全能的创作者。
研究团队特别强调了这种方法在安全关键应用中的潜在价值。由于EMPO?培养的是AI的内在能力而不仅仅是对外部提示的依赖,它在那些无法容忍错误的应用场景中可能更加可靠。比如在医疗诊断或自动驾驶等领域,AI需要在没有外部辅助的情况下做出正确判断。
当然,研究团队也认识到当前方法的一些局限性。现在的记忆检索机制相对简单,主要基于语义相似度匹配。未来可能需要开发更加智能的记忆组织和检索方法,比如基于因果关系或抽象概念的匹配。另外,目前的研究主要集中在特定类型的任务上,扩展到更广泛的应用领域还需要进一步的探索。
说到底,EMPO?代表了AI发展的一个重要方向:不是简单地让机器变得更快或更强,而是让它们学会真正的智能行为——探索、学习、适应和成长。就像人类从婴儿成长为能够独立思考的成年人一样,AI也需要经历从依赖外部指导到形成内在智慧的过程。EMPO?为这种成长提供了一个可行的路径,它不仅让我们看到了更智能的AI的可能性,也为实现这种可能性提供了具体的技术方案。
这项研究最深远的意义在于,它展示了如何让AI真正学会学习。在未来,我们或许会看到能够自主探索新知识、适应新环境、解决新问题的AI系统,它们不再需要人类为每一个可能的情况预先编程,而是能够像人类一样通过经验积累来不断成长和进化。这样的AI将不仅仅是工具,更可能成为真正的智能合作伙伴,与人类一起探索这个充满未知的世界。
Q&A
Q1:EMPO?框架是如何让AI学会探索的?
A:EMPO?就像训练一个侦探一样,让AI在三种模式下工作:有时纯粹凭直觉行动,有时查阅以往案例记录来指导行动,然后通过特殊的学习机制将外部记忆中的智慧逐渐转化为内在能力。这样AI不仅能利用记忆改善探索效果,更能将这些经验内化,即使没有外部提示也能做出正确判断。
Q2:这个方法比其他AI训练方法好在哪里?
A:传统方法要么只依赖记忆但不会真正学习,要么只会参数学习但探索能力差。EMPO?巧妙结合了两者优势,在ScienceWorld环境中比最先进的GRPO方法提升了128.6%,在WebShop中提升了11.3%。更重要的是,它培养的是AI的内在能力,训练完成后即使不依赖外部记忆也能表现出色。
Q3:EMPO?训练出来的AI能处理全新的任务吗?
A:能够很好地适应。研究显示,即使面对完全陌生的任务,经过EMPO?训练的AI只需要很少几次尝试就能利用记忆机制快速学会新策略,而且不需要更新任何参数。这就像培养了一个经验丰富的问题解决者,虽然面对新问题,但能够快速找到解决思路。





京公网安备 11011402013531号