当前位置: 首页 » 资讯 » 新科技 » 正文

新加坡国立大学突破:让AI不再被"好心帮倒忙"的推理示例困扰

IP属地 中国·北京 科技行者 时间:2025-10-22 22:05:48


这项由新加坡国立大学王浩楠、梁伟达、傅梓航等研究人员与悉尼大学、MiroMind AI联合开展的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.23196v1),揭示了现代AI推理模型面临的一个意外困境:那些本应帮助AI更好推理的示例,反而让它们的表现变得更糟。

当我们谈到AI推理时,通常会想到这样一个场景:就像学生需要看几道例题才能更好地解答新题目一样,AI模型也需要一些推理示例来指导它们处理复杂问题。这种被称为"少样本思维链"的方法,长期以来被认为是提升AI推理能力的黄金标准。然而,这项研究却发现了一个令人意外的现象:对于那些经过强化学习训练的现代推理模型来说,这些"好心"的示例反而成了绊脚石。

研究团队选择了包括DeepSeek-R1和Qwen系列在内的多个先进AI模型进行测试,测试场景包括数学竞赛题目和科学推理问题。结果令人震惊:即使给这些模型提供了高质量、与目标问题高度相关的推理示例,它们的准确率也会显著下降,而且提供的示例越多,表现越差。在某些情况下,准确率甚至下降了35%。

这个发现让人联想到一个有趣的类比:一个已经熟练掌握厨艺的大厨,如果在烹饪时总是被人在旁边指手画脚地提供"建议",反而可能做出比独自烹饪更糟糕的菜品。现代AI推理模型经过大量训练后,已经具备了相当强的内在推理能力,外部示例有时会干扰它们的正常思维流程。

为了深入了解这种现象的根本原因,研究团队进行了细致的分析,发现了两个关键的失效机制。第一个问题可以称为"表面相似性陷阱":当AI看到示例问题与目标问题在用词或表述上很相似时,它会误以为这两个问题完全相同,然后直接照搬示例的解题步骤和答案,完全忽略了目标问题的独特逻辑结构。这就像一个学生看到题目中都提到"苹果和橘子",就认为所有这类题目的解法都一样,结果把计算重量的方法用到了计算价格的问题上。

第二个问题则是"策略提取失败":即使示例中包含了有用的解题策略,AI也难以正确地提取并应用到新问题上。研究团队观察到,AI经常会错误地简化或误解示例中的推理模式,就像一个人学习别人的写作技巧时,只记住了表面的词汇搭配,却没有理解深层的逻辑结构。

基于这些发现,研究团队开发了一套名为"洞察到解答"(Insight-to-Solve, I2S)的新方法。这种方法的核心思想是将推理示例转化为抽象的、可复用的指导原则,而不是让AI直接模仿具体的解题过程。

I2S方法的工作流程就像一个优秀的导师指导学生学习。首先,它会让AI仔细比较示例问题和目标问题,明确指出两者的相似点和不同点,避免混淆。接着,AI需要从示例的详细解题过程中提取出通用的策略和方法,比如"先分析数据结构"或"检查边界条件"这样的抽象指导。最后,AI运用这些抽象指导来构建针对目标问题的全新推理过程,而不是照搬示例的具体步骤。

更进一步的I2S+版本还加入了自我完善机制。就像一个作家会反复修改自己的文章一样,AI在生成初步答案后,会对自己的推理过程进行多轮检查和改进。它会主动寻找可能的错误,检查逻辑是否连贯,并对有问题的部分进行修正。这个过程通常经过2-3轮迭代就能达到最佳效果。

实验结果显示,这种新方法取得了显著的效果改进。在数学竞赛AIME 2025的测试中,使用I2S+方法的7B参数模型准确率从42%提升到了51.33%,提升幅度超过9个百分点。更令人印象深刻的是,这种方法不仅对开源模型有效,对GPT-4.1和o1-mini这样的闭源商业模型同样有效。GPT-4.1在AIME测试中的表现从34%提升到48%,提升了14个百分点。

研究团队还发现,I2S方法在计算效率方面也表现出色。与简单地生成多个答案然后投票选择最佳结果的方法相比,I2S能够用更少的计算资源获得更好的结果。这就像一个高效的学习方法,能让学生用更少的时间获得更好的学习效果。

在开放式推理任务中,I2S方法同样表现良好。研究团队使用GPT-4.1作为评判标准,发现I2S在工程和通用推理任务中都能带来稳定的性能提升,提升幅度达到1-2个百分点。虽然这个提升看起来不如数学题目那么显著,但考虑到开放式问题评判的复杂性和主观性,这样的提升仍然很有价值。

特别值得注意的是迭代改进的效果模式。研究发现,对于数学类问题,多轮自我改进通常能带来明显的效果提升,而且模型规模越大,从迭代中获得的收益越明显。然而,对于开放式问题,过多的迭代有时反而会产生负面效果,特别是对较小的模型。这揭示了一个重要的实用原则:不同类型的问题需要不同的处理策略。

从技术实现的角度来看,I2S方法的一个重要优势是它的轻量级特性。整个过程只需要三次模型调用:比较生成、策略分析和答案构建,计算开销相对较小。而且,这种方法不需要对原有模型进行重新训练,可以直接应用于现有的各种AI模型,具有很强的实用性。

这项研究的意义远不止于解决一个技术问题。它揭示了AI发展过程中的一个重要现象:随着AI能力的提升,传统的训练和使用方法可能需要相应调整。那些曾经有效的方法可能不再适用于新一代的AI系统,我们需要不断探索更适合先进AI特点的交互方式。

研究还展现了AI推理能力评估的复杂性。表面上看起来应该有帮助的输入,实际可能会产生负面影响,这提醒我们在设计AI系统时需要更加细致地考虑各种因素的相互作用。同时,这也说明了AI的"智能"与人类智能有着本质的不同特点,需要我们用新的视角来理解和优化它们的表现。

从更广泛的应用前景来看,I2S方法的成功为改进AI推理能力开辟了新的思路。它不仅可以应用于学术研究中的复杂推理任务,也可能对实际应用中的AI助手、教育软件、科学计算等领域产生积极影响。任何需要AI进行复杂推理的场景,都可能从这种新方法中受益。

值得一提的是,这项研究还展现了跨机构合作在AI研究中的重要性。新加坡国立大学、悉尼大学和MiroMind AI的合作,汇集了学术界和产业界的不同优势,为解决复杂的AI问题提供了有力支撑。这种合作模式可能是未来AI研究发展的重要趋势。

说到底,这项研究告诉我们一个重要道理:在AI快速发展的今天,我们不能简单地假设传统的方法总是最好的。随着AI能力的提升,我们需要不断重新审视和改进与AI交互的方式。有时候,退一步海阔天空,让AI发挥自己的内在能力,可能比试图过度指导它们更加有效。这项研究为我们提供了一个很好的例子,说明了如何通过深入理解AI的工作机制,开发出更加有效的使用方法。

Q&A

Q1:什么是洞察到解答(I2S)方法?它是如何工作的?

A:I2S是新加坡国立大学研发的一种新型AI推理方法。它不让AI直接模仿示例解题过程,而是先让AI比较示例与目标问题的异同,然后提取抽象的解题策略,最后用这些策略独立构建新的推理过程。就像优秀导师教学生提取解题思路而非照搬具体步骤。

Q2:为什么传统的推理示例会让现代AI表现变差?

A:研究发现两个主要原因:一是"表面相似性陷阱",AI看到用词相似就误认为是同一问题,直接照搬答案;二是"策略提取失败",AI难以从示例中正确提取有用的推理策略。这就像一个熟练厨师被人指手画脚反而做不好菜一样。

Q3:I2S方法在实际测试中效果如何?适用于哪些AI模型?

A:效果显著且适用面广。在数学竞赛中,小模型准确率提升9个百分点,GPT-4.1提升14个百分点。方法不需要重新训练,可直接应用于包括GPT-4.1、o1-mini在内的各种开源和闭源模型,计算开销也相对较小。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。