![]()
近年来,人工智能智能体在各个领域都展现出了惊人的能力,但有一个问题始终困扰着研究者:如何让AI拥有像人类一样的记忆能力?北京人工智能研究院的研究团队最近发表了一项突破性研究,提出了名为"通用智能体记忆"(GAM)的全新框架。这项研究由北京人工智能研究院的严博远、李超凡等研究者主导,联合中国人民大学、北京大学和香港理工大学的学者共同完成,于2025年11月发表在arXiv预印本平台,论文编号为arXiv:2511.18423v1。
当我们回想昨天发生的事情时,大脑不会把每一个细节都完整地存储下来,而是会在需要时主动搜索和重构相关信息。但目前的AI记忆系统却像是一个过度压缩的文件夹,为了节省空间而丢失了太多重要细节。研究团队意识到,传统的AI记忆系统就像是提前准备好的罐头食品,虽然方便取用,但在加工过程中不可避免地损失了原有的营养和口感。GAM的创新之处在于,它不再预先压缩所有信息,而是像一位经验丰富的图书管理员,既保存完整的资料,又能根据具体需求快速找到最相关的内容。
这项研究的核心理念可以用爱因斯坦的一句名言来概括:"智慧不在于储存信息,而在于知道在哪里找到信息。"正是基于这一洞察,研究团队设计了一个全新的记忆架构,让AI能够在保持完整历史信息的同时,根据当前任务的具体需求动态生成最优的记忆内容。
一、传统AI记忆系统的根本缺陷
要理解GAM的革命性意义,我们首先需要了解传统AI记忆系统面临的困境。想象一下,你是一位忙碌的办公室职员,每天需要处理大量的文件和信息。传统的AI记忆系统就像是一个固执的助理,总是在你还没提出具体要求时,就把所有重要文件打包压缩成几页摘要。这种做法看似高效,但问题显而易见:当你需要某个特定细节时,那些被"优化"掉的信息永远找不回来了。
现有的AI记忆系统普遍采用"提前编译"的策略,类似于把一整本百科全书压缩成一页纸的摘要。这种方法的问题在于,压缩过程中必然会丢失大量细节信息,而这些看似不重要的细节往往在特定情况下变得至关重要。更糟糕的是,这种预设的记忆结构无法灵活适应各种不同的任务需求,就像用同一把钥匙试图打开所有不同的锁。
研究团队发现,这种传统方法还有另一个致命缺陷:它过分依赖领域专家的手工设计。这就好比每次换一个新工作环境,你都需要重新训练那位助理如何整理文件。这不仅效率低下,还严重限制了系统在不同领域的适用性。当AI智能体面对新的应用场景时,往往需要重新设计整套记忆机制,这显然无法满足通用人工智能的发展需求。
二、GAM的核心创新:即时编译式记忆
面对传统方法的种种局限,研究团队提出了一个全新的思路:既然压缩会导致信息丢失,那为什么不保存完整信息,而在需要时进行智能检索呢?这就是GAM采用的"即时编译"原理。
回到图书管理员的比喻,GAM就像是一位非常聪明的图书管理员,她不会把所有书籍都撕掉只留目录,而是保存完整的藏书,同时建立一套高效的索引系统。当读者提出具体需求时,她能够迅速定位相关资料,并根据读者的具体需要整理出最合适的信息组合。
GAM的架构包含两个核心组件:记忆者(Memorizer)和研究者(Researcher)。记忆者的工作就像一位勤奋的档案员,负责接收智能体的历史活动记录,为每个重要事件创建简洁的摘要,同时将完整的原始信息存储在一个被称为"页面存储库"的地方。这种设计确保了既有便于快速浏览的索引,又保留了完整的历史细节。
研究者则扮演着智能检索专家的角色。当智能体提出具体请求时,研究者会根据预先构建的记忆索引,在页面存储库中进行深度搜索。这个过程不是简单的关键词匹配,而是一个包含规划、搜索和反思的完整研究过程。研究者会分析当前任务的信息需求,制定搜索策略,执行检索操作,并对结果进行评估,直到收集到足够回答问题的信息为止。
这种设计的巧妙之处在于,它将记忆的创建和使用分离开来。在离线阶段,系统只需要进行轻量级的记忆构建,而将计算密集型的工作留到在线服务时进行。这就像是一个智能仓储系统,平时只需要简单归类商品,而在接到订单时才进行精确的拣选和包装。
三、双智能体协作:分工明确的记忆系统
GAM的一个突出特点是采用了双智能体协作模式。这种设计灵感来自人类大脑中记忆形成和检索的不同机制。在人脑中,海马体负责形成新记忆,而前额叶皮层则负责记忆的检索和整合。GAM模仿了这种分工合作的模式。
记忆者组件的工作流程包含两个主要操作。首先是"记忆化"过程,当新的会话或活动记录到达时,记忆者会结合当前的记忆内容,为新信息生成一个简洁而全面的摘要。这个过程就像是每天写日记,既要记录当天的重要事件,又要与之前的经历形成连贯的叙述。其次是"分页"过程,记忆者会为每个新会话生成包含上下文信息的页面头部,然后将完整的会话内容和头部信息组合成一个页面,存储到页面库中。
研究者组件则实现了更为复杂的智能检索过程。当接收到用户请求时,研究者首先进行"规划",基于现有记忆内容分析请求的潜在信息需求,并制定具体的搜索计划。接着执行"搜索"操作,使用多种检索工具并行搜索相关页面,然后将搜索结果与之前的整合结果进行融合。最后进行"反思",评估当前收集的信息是否足以回答原始请求,如果不够完整,则生成新的搜索需求继续下一轮检索。
这种迭代式的深度研究过程是GAM的一个重要创新。传统的记忆系统通常只进行一次性的信息检索,而GAM的研究者可以进行多轮搜索和思考,就像一个真正的研究助理一样,不断完善对问题的理解和答案的完整性。
四、多样化的搜索工具与策略
GAM的另一个技术亮点是集成了多种互补的搜索工具。这就像是给研究者配备了一套完整的调研工具箱,每种工具都有其特定的优势和适用场景。
嵌入式向量搜索工具擅长理解语义相似性,类似于一个理解文本深层含义的智能助手。当用户提出概念性问题或需要推理性解答时,这个工具能够找到在语义上相关的内容,即使关键词没有直接匹配。BM25关键词检索工具则专长于精确的词汇匹配,就像传统图书馆的主题索引,能够快速定位包含特定术语的页面。页面索引直接访问工具允许根据页面编号直接获取完整内容,适用于需要查看特定历史记录的场景。
这三种工具的组合使用显著提高了信息检索的覆盖面和准确性。研究者会根据具体任务的特点,智能地选择合适的工具组合。对于需要精确事实查找的任务,关键词检索可能更加有效;对于需要理解复杂关系或进行推理的任务,语义搜索则更为重要;而当记忆中已经标注了相关页面位置时,直接访问能够快速获取完整信息。
更重要的是,这些工具可以并行使用,大大提高了搜索效率。这就像同时派遣多个专家从不同角度调研同一个问题,然后综合所有的发现得出最全面的结论。
五、端到端的性能优化机制
GAM不仅在架构设计上具有创新性,还引入了端到端的性能优化框架。这个优化过程就像训练一支专业的研究团队,让每个成员都能不断提高自己的工作效率。
整个优化框架基于强化学习原理。系统会根据最终任务完成的质量来评估记忆系统的性能,然后通过策略梯度方法来调整记忆者和研究者的行为策略。这种方法的优势在于,它不需要人工设计复杂的评估标准,而是直接以任务成功率为导向进行优化。
记忆者的优化重点在于学习如何生成更有用的记忆摘要和页面组织结构。通过分析哪些类型的记忆内容在后续任务中被频繁使用,系统能够逐渐学会突出重要信息,改进记忆的组织方式。研究者的优化则更为复杂,涉及搜索策略的选择、查询词的生成、信息整合的方法等多个方面。
这种优化过程是连续进行的,系统会根据新的任务经验不断调整和改进。这就像一个学习型组织,每次处理新任务都会积累经验,逐渐提高工作效率。更重要的是,这种优化是自适应的,能够根据不同的应用领域自动调整策略,而不需要人工干预。
六、测试时计算扩展能力
GAM的一个独特优势是具备"测试时计算扩展"能力。这意味着当面对复杂任务时,系统可以投入更多的计算资源来获得更好的结果,就像人类在处理困难问题时会花更多时间思考一样。
这种能力主要体现在两个方面。首先是反思深度的调节,研究者可以根据任务的复杂程度进行更多轮的搜索和思考。对于简单问题,可能一轮搜索就足够了;而对于复杂问题,系统会自动进行多轮深入调研,直到收集到足够的信息。其次是检索页面数量的动态调整,对于需要大量背景信息的任务,系统会扩大搜索范围,检索更多相关页面。
实验结果显示,随着测试时计算量的增加,GAM的性能呈现稳定的提升趋势。这种特性使得GAM能够在计算资源和性能要求之间找到平衡,根据具体应用场景的需要进行调整。更重要的是,这种扩展是智能的,系统会根据问题的实际需要自动决定是否需要更多计算,避免不必要的资源浪费。
七、全面的实验验证与性能表现
为了验证GAM的有效性,研究团队进行了全面的实验评估。他们选择了多个具有代表性的基准测试,涵盖了从记忆保持能力到长文本理解等多个方面。
在LoCoMo基准测试中,GAM在所有类型的记忆任务上都显著超越了现有方法。这个测试专门评估AI系统在长期对话中保持和回忆信息的能力,类似于测试一个秘书是否能记住并准确回答关于过往会议的各种问题。GAM在单跳问题、多跳推理、时间推理和开放域问答等所有子任务上都表现出色。
在HotpotQA多跳问答任务中,GAM展现了处理复杂推理的强大能力。这个任务要求系统从多个文档中收集信息片段,然后进行逻辑推理得出答案。GAM在56K、224K和448K三种不同长度的文本设置下都保持了稳定的高性能,证明了其在处理大规模信息时的鲁棒性。
RULER长文本理解基准测试进一步验证了GAM在各种复杂任务上的表现。该测试包含检索、多跳跟踪、聚合和问答四种不同类型的任务。特别是在多跳跟踪任务中,GAM达到了超过90%的准确率,而大多数基线方法在这类需要跟踪变量值变化的复杂任务上表现不佳。
NarrativeQA长篇叙事问答测试则评估了系统理解完整书籍或电影剧本的能力。GAM在这个极具挑战性的任务上也表现出了明显优势,能够从平均87K字的长文本中准确提取信息并回答问题。
八、模型规模与性能的关系分析
研究团队还深入分析了不同规模语言模型对GAM性能的影响。他们发现了一个有趣的现象:记忆者和研究者组件对模型规模的敏感度截然不同。
记忆者组件即使使用较小的模型也能保持良好的性能。这说明记忆摘要的生成是一个相对简单的任务,类似于写读书笔记,不需要特别强大的语言理解能力。即使是0.5B参数的小模型,也能胜任基本的记忆整理工作。
相比之下,研究者组件对模型规模极为敏感。当使用7B以下参数的模型时,整体性能会显著下降。这反映了深度研究过程的复杂性:规划搜索策略、理解复杂查询、整合多源信息等操作需要强大的推理和语言理解能力。
这一发现对实际应用具有重要意义。在资源受限的环境下,可以采用不对称的配置方案:使用小模型处理记忆化任务,而将更多计算资源分配给研究者组件。这种灵活的配置策略使得GAM能够在不同的应用场景下找到性能和效率的最佳平衡点。
九、系统效率与实用性考量
除了性能优势外,GAM在实用性方面也表现出色。研究团队对系统的时间效率进行了详细分析,结果显示GAM的总体运行时间与现有主流方法相当,但提供了显著更好的答案质量。
在离线记忆构建阶段,GAM的时间复杂度与输入文本长度呈线性关系,这意味着处理更长文本时的时间增长是可预测和可控的。在线服务阶段的响应时间相对稳定,不会因为历史记忆规模的增长而显著增加。这种特性使得GAM特别适合需要处理大量历史信息的长期运行应用。
研究团队还分析了不同输出格式对性能的影响。他们发现,除了提供整合后的答案外,如果同时提供支持答案的原始页面信息,性能会进一步提升。这说明保留信息溯源能力的重要性,用户不仅能得到答案,还能了解答案的来源和依据。
十、技术细节的深度剖析
GAM的成功不仅来自于整体架构的创新,也体现在许多精心设计的技术细节上。研究团队进行了全面的消融实验来验证各个组件的重要性。
在搜索工具的选择上,实验结果证明了多工具组合的必要性。单独使用任何一种搜索工具都无法达到最佳效果,而三种工具的组合使用能够实现最全面的信息覆盖。特别是BM25关键词搜索在整体效果中占据重要地位,这提醒我们精确匹配在信息检索中仍然不可替代。
研究团队还验证了记忆者和研究者两个组件缺一不可。当只使用研究者进行搜索而没有记忆指导时,性能明显下降;而仅依靠预构建记忆而不进行动态研究时,性能下降更为严重。这证明了GAM双组件设计的合理性和必要性。
在输出格式的选择上,研究发现提供信息来源对提升可信度和实用性具有重要价值。用户不仅能得到答案,还能追溯信息的具体来源,这在需要验证答案准确性的场景中特别重要。
GAM的这项研究为AI记忆系统开辟了新的发展方向。说到底,传统的压缩式记忆就像是把图书馆变成了一个小册子,虽然便于携带,但丢失了太多宝贵信息。GAM则保留了完整的图书馆,同时配备了最优秀的图书管理员,能够根据每个读者的具体需求提供精准的信息服务。
这种即时编译的记忆模式不仅解决了信息丢失的问题,还具备了传统方法无法企及的灵活性和适应性。更重要的是,GAM能够充分利用现代大语言模型的强大能力,在测试时动态扩展计算资源,实现性能的持续提升。
对于普通人而言,GAM的突破意味着未来的AI助手将拥有更加可靠和全面的记忆能力。无论是个人知识管理、企业信息检索,还是科研文献分析,这种新型记忆系统都能提供更准确、更完整的信息支持。
当然,GAM目前还是一个研究原型,要真正应用到日常生活中还需要进一步的工程化和优化。但这项研究为我们展示了AI记忆系统的未来发展方向,也为实现真正通用的人工智能奠定了重要基础。有兴趣深入了解技术细节的读者可以通过arXiv:2511.18423v1查阅完整的研究论文,获取更多实验数据和实现细节。
Q&A
Q1:GAM记忆系统和传统AI记忆系统有什么根本区别?
A:传统AI记忆系统采用"提前编译"模式,像压缩文件一样预先处理所有信息,会不可避免地丢失细节。GAM采用"即时编译"模式,保存完整历史信息,根据具体需求动态检索和整合相关内容,避免了信息丢失问题。
Q2:GAM的双智能体架构是如何工作的?
A:GAM包含记忆者和研究者两个组件。记忆者负责为历史信息创建简洁摘要并保存完整内容到页面库中,研究者则根据用户请求进行规划、搜索、反思的迭代过程,从页面库中检索和整合相关信息,类似于图书管理员和研究助理的分工合作。
Q3:使用GAM记忆系统需要什么样的技术条件?
A:GAM需要大语言模型作为基础,其中研究者组件对模型规模要求较高(建议14B参数以上),而记忆者组件对模型要求相对较低。系统还需要向量搜索、关键词检索等基础技术支持,但整体技术门槛在可接受范围内。





京公网安备 11011402013531号