当前位置: 首页 » 资讯 » 新科技 » 正文

西交大与新加坡国立大学:让AI像人类一样激活记忆进行科学推理

IP属地 中国·北京 科技行者 时间:2026-02-01 16:17:08


这项由西安交通大学联合新加坡国立大学开展的突破性研究发表于2026年1月14日的arXiv预印本平台,论文编号为arXiv:2601.09274v1。研究团队开发了一个名为A?-Bench的全新测试平台,专门用于评估人工智能在科学推理时是否能像人类一样激活和运用记忆。

当我们做数学题或解答物理问题时,大脑并不是在真空中思考的。就像厨师在准备一道复杂菜品时,不仅需要知道基本的食材和工具,还需要能够恰到好处地调取以往的烹饪经验和技巧。人类的科学推理过程也是如此——我们会自动激活相关的知识点(就像厨师想起某种调料的作用),同时调用解题的方法模板(就像想起某种特定的烹饪手法)。然而现有的人工智能测试方法主要关注最终答案是否正确,却忽略了AI是否真正像人类一样运用了恰当的"记忆"。

研究团队发现了一个有趣的现象:当GPT-5在解决一个关于传送带的物理问题时,如果没有记忆机制的帮助,它会忽略动能定理这个关键知识点,导致推理路径完全错误。但是当系统能够激活相关的物理定理、加速度概念和功率应用场景这些"记忆片段"时,推理过程就变得清晰正确了。这就像一个学生突然想起了老师讲过的解题思路,瞬间找到了正确方向。

为了深入研究这种现象,科学家们构建了一个包含2198个科学推理问题的大型数据集,涵盖数学、物理、化学三大领域。更重要的是,他们为每个问题都标注了应该激活的"锚点"和"吸引子"——可以理解为解题所需的基础知识点和解题方法模板。这种创新性的标注方式,让研究人员第一次能够精确测量AI在推理过程中是否激活了正确的记忆成分。

一、记忆驱动推理的科学原理

人类大脑处理复杂问题时有一套精妙的机制。当面对一道微积分题目时,我们的大脑会自动搜索相关知识,这个过程可以比作图书管理员在庞大的藏书中精准定位所需资料。大脑首先会激活"锚点"——那些基础的概念和公式,比如导数的定义、积分的基本法则等,这些就像解题的"地基"。接着,大脑还会调用"吸引子"——那些经过实践验证的解题模板和思维框架,比如"遇到这类函数就用分部积分法"或"看到这种图形就联想到极坐标系"。

研究团队用数学公式精确描述了这种记忆激活过程。他们将其建模为一个能量最小化问题:系统会自动寻找能够最好解释当前问题的记忆组合,就像水滴会自然流向最低的地方一样。这个过程包含两个关键要素:一是要让激活的记忆与问题内容高度匹配,二是要保持记忆激活的稳定性和一致性。

在这个框架中,"锚点"起到了定位和约束的作用,它们告诉系统应该关注哪些核心概念。而"吸引子"则提供了动态的解题轨迹,引导推理过程沿着正确的方向发展。两者的配合就像导航系统中的起点定位和路径规划——起点定位确保你知道自己在哪里,路径规划则指引你如何到达目的地。

这种双重机制的设计灵感来源于认知科学对人类记忆层次结构的研究。人类的记忆确实是分层组织的,从具体的经验事实到抽象的概念框架,不同层次的记忆在解决问题时会被情境线索有选择性地激活。研究团队将这种认知机制转化为了可以量化测试的技术框架。

二、A?-Bench数据集的构建过程

构建这样一个独特的测试数据集并非易事,研究团队设计了一个名为SAPM的四步标注流程,就像精心设计一套完整的烹饪教学体系。

首先是"学科基准化"阶段,研究者需要为每个学科建立清晰的知识边界。对于数学领域,他们参考了美国数学学会的权威分类标准,将数学知识细分为代数、几何、数论、微积分分析、离散数学、逻辑集合论、统计概率以及计算数学等八个子领域。物理学科则按照国际标准划分为力学、热力学、光学、电磁学和现代物理五个分支。化学领域包含无机化学、有机化学、物理化学、分析化学和生物化学五个专业方向。这种细致的分类就像为不同类型的菜品准备不同的烹饪器具,确保每个知识点都能找到合适的归属。

接下来的"锚点与吸引子开发"阶段更加考验专家的专业判断。三位学科专家会仔细审视每个子领域,提取出最核心的概念、原理和公式作为"锚点"。这些锚点就像烹饪中的基本调料——盐、糖、油等,是构成复杂菜品不可缺少的基础元素。与此同时,专家们还要识别出"吸引子",也就是那些在实际解题中反复出现的方法模板和思维框架。如果说锚点是食材,那么吸引子就是烹饪技法——比如爆炒、慢炖、蒸煮等。

第三个"问题重构"阶段最为精巧。研究团队从已有的优秀数据集中选取问题,包括MathVista、OlympiadBench、EMMA和人类最终考试等高质量资源。但他们并不是简单地拿来就用,而是让三个不同的AI模型先尝试解答这些问题。只有当至少有一个模型答错的题目才会进入下一轮筛选,这样可以确保问题具有足够的挑战性。然后,三个模型会互相评判对方的答案,找出推理中的错误环节。基于这些分析,专家团队会对原问题进行精心改造,增加多步推理的要求,就像把简单的家常菜改良成需要多道工序的精致料理。

最后的"记忆映射"阶段将问题与相应的锚点、吸引子建立联系。三个AI模型首先会对每道题的学科归属进行"投票",如果至少两个模型意见一致,这个分类就被确定下来。随后,人类专家会根据问题的具体需求,从相应的记忆库中精心挑选出最相关的锚点和吸引子。每道题最多标注6个锚点和4个吸引子,确保复杂度适中的同时保持标注的精准性。

这个构建过程最终产生了2198个精心标注的科学推理问题,其中数学题目998个(占45.4%),物理和化学各600个(分别占27.3%)。从难度分布来看,容易题879个,中等难度题659个,困难题660个,形成了相对均衡的难度梯度。

三、创新的评估框架与指标

为了准确测量AI是否真正激活了恰当的记忆,研究团队开发了一套双尺度记忆评估框架,配合专门设计的AAUI指标(锚点-吸引子利用指数)。这套评估体系就像给大脑安装了一个精密的监测设备,能够实时观察思维过程中各种记忆成分的激活情况。

评估框架的核心是一个名为HybridRAG的混合检索系统。当AI面对一个新问题时,系统会启动"记忆双针激活器"——一个针(向量针)负责通过语义相似性快速定位相关的锚点和吸引子,就像用磁铁在一堆金属碎片中找到铁钉;另一个针(图谱针)则沿着知识图谱的连接关系追踪逻辑链条,就像沿着藤蔓寻找结出的果实。两个针的协同工作确保了既能快速检索到相关内容,又不会遗漏重要的逻辑联系。

检索到相关记忆后,"情境织物组合器"会将问题内容与激活的锚点、吸引子巧妙地编织在一起,形成一个完整的推理背景。这个过程就像调酒师根据客人的口味偏好,将不同的基酒、调料和装饰精心组合成一杯独特的鸡尾酒。

AAUI指标的设计颇具巧思。它不仅要计算AI激活了多少个正确的锚点和吸引子,更要考察这些记忆成分之间的协同效应。指标的数学公式同时包含了锚点利用率、吸引子利用率以及它们之间的交互项,这样可以奖励那些能够同时激活互补记忆的表现。比如,如果一个AI在解物理题时既激活了正确的物理定律(锚点),又调用了恰当的解题模板(吸引子),它获得的AAUI分数就会比只激活其中一种类型记忆的AI更高。

研究团队设计了三种不同的测试模式。第一种是"普通模式",AI只能依靠自身的参数化知识来解题,没有任何外部记忆支持,就像让学生闭卷考试。第二种是"完整记忆模式",AI可以从包含所有锚点和吸引子的完整记忆库中检索信息,类似于开卷考试但需要自己找到相关资料。第三种是"标注记忆模式",AI只能访问专家预先标注的那些最相关的记忆成分,就像给了学生一份精准的参考资料清单。

四、令人瞩目的实验发现

研究团队在十个不同规模和类型的AI模型上进行了全面测试,包括DeepSeek-V3.2、Gemini-2.5-Flash、Claude-Haiku-4.5、Grok-4-Fast等当前最先进的模型。实验结果揭示了许多意想不到的现象。

最引人注目的发现是记忆增强对所有测试模型都产生了显著的性能提升。在普通模式下,十个模型的平均准确率为34.71%,而在标注记忆模式下,这个数字跃升至48.19%,提升幅度达到13.48个百分点。这种提升并不是均匀分布的——某些模型获益巨大,比如GLM-4-32B的准确率从25.20%飙升至47.95%,提升了22.75个百分点;而另一些模型如GPT-5-Mini的改善相对有限,从21.97%增加到25.34%,仅提升了3.37个百分点。这种差异暗示着不同的AI模型在利用外部记忆方面存在着根本性的能力差别。

更有趣的是,记忆激活对困难题目的帮助尤其显著。在处理困难的物理问题时,Grok-4-Fast在普通模式下的准确率仅为30.00%,但在标注记忆模式下达到了55.00%,提升了25个百分点。这说明许多看似复杂的科学问题,其困难之处往往不在于推理逻辑本身,而在于是否能够激活正确的知识点和解题模板。就像一个经验丰富的医生能够迅速识别罕见疾病的症状,不是因为他的逻辑推理能力超常,而是因为他能准确调取相关的医学知识和诊断经验。

AAUI指标与模型性能之间呈现出明显的正相关关系。那些能够有效激活相关锚点和吸引子的模型,往往在最终的准确率上表现更好。Grok-4-Fast的AAUI得分为0.66,对应的平均准确率为56.69%;而GPT-5-Mini的AAUI得分仅为0.09,平均准确率也相应较低,为18.74%。这种相关性证实了AAUI指标确实能够有效测量模型的记忆激活质量。

为了验证这种记忆机制的普适性,研究团队还在另一个独立的测试集OlympiadBench上进行了验证实验。结果显示,锚点-吸引子激活机制在这个包含国际奥林匹克竞赛级别题目的数据集上同样有效,所有十个模型的平均得分都获得了显著提升,这证明了研究成果的泛化能力。

特别值得注意的是,研究团队还发现了一个有趣的现象:相比于单独激活锚点或吸引子,同时激活两种类型的记忆能够产生协同效应。在大多数情况下,仅激活吸引子的效果要好于仅激活锚点,这暗示着程序性的解题模板往往比声明性的知识点更直接有用。但是,两者结合使用时的效果始终是最好的,说明科学推理确实需要概念知识和方法技能的有机结合。

五、深度分析与启示

通过进一步的分析,研究团队发现了一些深层的规律。首先,不同学科领域对记忆类型的依赖程度存在差异。数学和物理问题更多地受益于吸引子激活,这反映了这两个学科中程序性解题技巧的重要性。相比之下,化学问题在锚点和吸引子激活之间表现出更均衡的依赖关系,这可能与化学学科既需要精确的概念定义又需要灵活的实验方法有关。

令人惊讶的是,启用记忆机制不仅提高了准确率,还实际上减少了推理时间。在标注记忆模式下,模型的平均推理时间减少了2.1秒,同时准确率提升了13.5%。这个结果颠覆了许多人的直觉——通常我们会认为增加外部信息检索会拖慢系统速度。但实际情况是,准确的记忆激活帮助模型更快地找到正确的推理路径,避免了无效的试错过程。就像一个熟悉路况的司机能够比初来乍到的游客更快到达目的地,尽管前者可能要先查看地图。

错误分析揭示了另一个重要发现。通过对比不同模式下的错误类型分布,研究人员发现记忆激活主要减少了"推理错误"和"知识错误",而对"计算错误"和"格式错误"的改善相对有限。这表明记忆机制的主要价值在于为推理过程提供正确的起点和方向,而不是替代精确的计算能力或规范化表达。

研究团队还进行了一项有趣的干扰实验。他们逐渐用无关的"噪声记忆"替换正确的锚点和吸引子,观察模型性能的变化。结果显示,当噪声比例超过40-60%时,模型性能开始显著下降,这说明记忆质量的重要性远超记忆数量。过多的无关信息不仅无助于推理,反而会形成干扰,就像在图书馆里放置太多无关书籍会让读者更难找到需要的资料。

六、技术创新的意义与价值

这项研究的创新价值不仅体现在技术层面,更在于它为人工智能的发展开辟了一个全新的评估维度。传统的AI测试主要关注"答案是否正确",就像只看菜品的最终味道而忽略烹饪过程。而A?-Bench首次实现了对"推理过程是否合理"的精确测量,让我们能够深入观察AI的"思维过程"。

从认知科学的角度来看,这项研究验证了人类记忆层次结构的重要性。长期以来,科学家们知道人类大脑将记忆分为不同的层次和类型,但如何将这种认知机制应用到人工智能系统中一直是个难题。A?-Bench提供了一个可行的技术框架,将抽象的认知理论转化为可操作的工程实践。

在实际应用层面,这种记忆驱动的推理机制有着广阔的前景。教育领域的智能辅导系统可以根据学生的具体问题,精准激活相关的知识点和解题方法,提供个性化的学习指导。科研助手系统可以在面对复杂的研究问题时,自动调取相关的理论基础和实验方法,协助研究人员制定研究方案。甚至在医疗诊断、工程设计、法律咨询等专业领域,这种技术都可能发挥重要作用。

更重要的是,这项研究为构建更加可靠和可解释的AI系统提供了新思路。当我们能够观察和理解AI激活了哪些记忆成分,我们就更容易判断其推理过程是否合理,预测其在类似问题上的表现,甚至识别其可能存在的知识盲区。这种透明度对于AI系统在关键决策场景中的应用具有重要意义。

从技术发展的长远角度来看,A?-Bench所代表的记忆驱动方法可能会推动AI架构的根本性变革。当前的大语言模型主要依赖于在训练阶段"死记硬背"的参数化知识,而记忆驱动的方法允许系统在推理时动态访问外部知识库,这种设计更加灵活、可更新,也更接近人类的认知模式。

研究团队还发现,不同模型在记忆利用能力上的巨大差异可能反映了它们在架构设计和训练方法上的根本差别。那些能够有效利用外部记忆的模型,可能具备更强的模式识别能力、更好的上下文理解能力,或者更优秀的注意力分配机制。这些发现为未来的模型设计提供了宝贵的指导。

说到底,这项来自西安交通大学和新加坡国立大学的研究开启了人工智能评估的新篇章。它不仅提供了一个测试AI记忆激活能力的标准化平台,更重要的是展示了一种更加符合人类认知规律的AI设计理念。就像人类学会骑自行车不仅需要了解力学原理,更需要通过实践培养肌肉记忆和平衡感,未来的AI系统也需要在掌握知识的同时,学会如何在恰当的时机激活恰当的记忆。

当我们站在人工智能发展的十字路口,这项研究提醒我们:真正智能的系统不仅要知道答案,更要知道如何思考。A?-Bench为我们提供了一扇窗口,让我们得以窥见AI"思维过程"的奥秘,也为构建更加智能、可靠、可理解的人工智能系统指明了方向。随着这种记忆驱动方法的不断完善和推广,我们有理由相信,未来的AI将更加接近人类的思维方式,在科学发现、教育教学、医疗诊断等各个领域发挥更加重要的作用。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2601.09274v1查询完整的研究报告。

Q&A

Q1:A?-Bench是什么东西?

A:A?-Bench是西安交通大学和新加坡国立大学开发的一个测试平台,专门用来检验人工智能在做科学题目时是否能像人类一样激活正确的知识点和解题方法。它包含2198个精心标注的数学、物理、化学题目,每道题都标明了应该激活的"记忆成分"。

Q2:这个记忆激活机制对AI性能提升有多大?

A:实验显示记忆激活能让AI的准确率平均提升13.48个百分点,某些模型甚至提升了22.75个百分点。更有趣的是,这种机制不仅提高了准确率,还减少了2.1秒的推理时间,说明正确的记忆激活能帮助AI更快找到解题思路。

Q3:普通人什么时候能用到这种技术?

A:这种记忆驱动的推理技术未来可能会应用到智能辅导系统、科研助手、医疗诊断等领域。比如智能学习APP可以根据你的具体问题精准推送相关知识点和解题方法,让学习更加个性化和高效。不过目前还处于研究阶段,距离大规模商用还需要时间。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。