当前位置: 首页 » 资讯 » 新科技 » 正文

清华突破:AI实现高效精准推理

IP属地 中国·北京 科技行者 时间:2025-10-22 22:06:42


这项由清华大学计算机科学与技术系的文浩明、白宇昱等研究人员完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.25176v1),为大型推理模型的训练带来了全新思路。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天,大型语言模型已经能够处理复杂的数学题、编程任务和逻辑推理。然而,这些模型在"思考"过程中往往显得异常啰嗦,就像一个话痨学生,明明几步就能解决的问题,却要絮絮叨叨写上几千个字。这种现象不仅浪费计算资源,还增加了使用成本。更令人困惑的是,当研究人员试图让这些模型"闭嘴",限制它们的输出长度时,模型的准确率往往会大幅下降,仿佛话说得少了就不会思考了。

清华大学的研究团队想出了一个巧妙的解决方案,他们称之为SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression)。这个方法的核心思想就像教导一个学生学会"张弛有度"——有时候要求学生简明扼要地回答问题,锻炼其精准表达能力;有时候又允许学生充分发挥,展开详细论述。通过这种"收缩-扩张"的交替训练,模型最终学会了在保持高准确率的同时大幅减少废话。

实验结果令人惊喜。在数学竞赛题AIME24的测试中,使用SIRI方法训练的1.5B参数模型,不仅准确率提升了43.2%,同时还将输出的文字数量减少了46.9%。这就像一个学生不仅考试成绩提高了,答题时间还缩短了一半,真正做到了事半功倍。

一、模型"话痨"问题的根源与挑战

当前的大型推理模型在解决问题时,就像一个思维活跃但表达冗余的学生。它们会进行大量的"内心独白"——反复验证答案、探索不同路径、甚至重复已经得出的结论。这种现象被称为"测试时扩展",虽然有助于提高准确率,但也带来了严重的效率问题。

举个简单的例子,当我们要求模型计算2+3=?时,一个正常的模型可能会直接回答5。但是经过强化学习训练的推理模型可能会这样回答:"让我来计算2+3。首先,我知道2是一个正整数,3也是一个正整数。加法是一种基本的算术运算。2+3意味着我需要将2和3结合起来。我可以从2开始,然后加上3。2+1=3,3+1=4,4+1=5。所以2+3=5。让我验证一下这个答案:5-3=2,这是正确的。因此,2+3=5。"

这种冗长的推理过程在简单问题上显得多余,但在复杂的数学证明或编程任务中,这种详细的思考过程确实有助于避免错误。问题在于,模型往往无法自己判断什么时候该详细思考,什么时候该简洁回答。

之前的研究人员尝试过多种方法来解决这个问题。有些研究采用"长度惩罚"的方式,在训练时对过长的回答进行惩罚,就像老师告诉学生"答案要简洁"。还有些研究直接设置输出长度上限,强制模型在指定字数内完成回答,就像限时考试一样。然而,这些方法都面临一个共同的困境:模型的准确率会显著下降。看起来,要么接受模型的啰嗦,要么接受其准确率的降低,似乎没有两全其美的办法。

这种困境的根本原因在于,传统的训练方法是"一刀切"的。它们要么始终鼓励模型详细思考,要么始终要求模型简洁回答,缺乏灵活性。就像一个老师要么总是要求学生写详细的论文,要么总是要求学生只写一句话总结,这样的教学方式显然不够合理。

二、SIRI方法的核心创新:动态的"张弛有度"

清华研究团队提出的SIRI方法,最大的创新在于引入了"动态长度调度"的概念。这就像一个智慧的老师,会根据学习进度动态调整对学生的要求。

SIRI方法的训练过程可以比作培养一个优秀辩手的过程。在训练的某个阶段,教练会严格限制辩手的发言时间,迫使其学会在有限时间内抓住要点、精准表达。这个阶段被称为"压缩阶段"。在另一个阶段,教练会放宽时间限制,允许辩手充分展开论述、探索各种论证路径。这个阶段被称为"扩张阶段"。

更巧妙的是,SIRI方法将这两个阶段有机地交替进行。在压缩阶段,模型被迫在较短的输出长度内完成推理任务,这迫使它学会识别和保留最关键的推理步骤,剔除冗余的思考过程。在扩张阶段,模型又获得了充分的"思考空间",可以基于之前学到的精简推理模式进一步探索和优化。

这种交替训练的效果是渐进式的改善。每经过一轮"压缩-扩张"循环,模型的表现都会有所提升。就像一个学生先学会了简洁表达,然后在此基础上学会了深度思考,再回过头来进一步精炼表达,如此循环往复,逐步达到既简洁又准确的理想状态。

研究团队设计了三种不同的长度调度策略。第一种是"阶梯式调度",就像开关灯一样,突然从允许长输出切换到要求短输出,再突然切换回来。第二种是"余弦式调度",长度限制的变化是平滑的,就像一天中阳光强度的自然变化。第三种是"阶梯-余弦混合调度",结合了前两种的优点,既有平滑的过渡,又有稳定的高低长度平台期。

实验结果显示,640步长的余弦调度效果最好。这个周期长度确保了模型在压缩阶段有足够时间适应短输出要求,在扩张阶段又有足够空间探索新的推理模式。就像一个完整的学期,既有紧张的期中考试阶段,也有相对宽松的期末复习阶段。

三、训练过程的精妙设计:如何实现"事半功倍"

SIRI方法的训练过程设计得如同一场精心编排的学习马拉松。整个过程分为多个迭代周期,每个周期都包含压缩和扩张两个阶段,就像呼吸一样自然而有节奏。

在压缩阶段,模型面临的挑战类似于"电报式写作"的训练。就像过去发电报要按字收费,迫使人们用最少的字表达最多的信息一样,模型在这个阶段被严格限制输出长度。研究团队将最大输出长度从16384个token(大约相当于一万多个汉字)压缩到8192个token(大约五千多个汉字)。

这种压缩并不是简单的截断,而是通过强化学习的奖励机制来实现。模型只有在指定长度内给出正确答案才能获得奖励,如果超出长度限制,即使答案正确也得不到奖励。这就像一个严格的考试,不仅要答对,还要在规定时间内完成,培养了模型的"时间观念"和效率意识。

在扩张阶段,限制被放宽,模型重新获得了充足的"思考空间"。但这时的模型已经不是之前那个啰嗦的模型了,它在压缩阶段学会了精准定位关键信息,因此即使有了更多空间,也能更有效地利用这些空间进行深度思考,而不是无意义的重复。

研究团队观察到一个有趣的现象:模型的输出长度变化总是滞后于调度器的设定。当调度器要求模型缩短输出时,模型并不会立即响应,而是需要100-200个训练步骤才能适应新的长度要求。这就像一个人改变说话习惯需要时间一样,模型也需要时间来调整其内在的推理模式。

这种滞后效应实际上是有益的,它给了模型充分的适应时间,避免了因为突然的要求变化而导致的性能急剧下降。就像一个好的健身教练不会突然大幅增加训练强度,而是循序渐进地调整训练计划。

四、实验验证:数据说话的说服力

研究团队在多个权威数学竞赛数据集上验证了SIRI方法的效果,结果令人印象深刻。他们使用的基础模型是DeepSeek-R1-Distill-Qwen,分别测试了1.5B和7B两个不同规模的版本。

在最具挑战性的AIME24数学竞赛题上,SIRI方法训练的1.5B模型表现惊人。与原始模型相比,SIRI-low版本(经过三次迭代压缩训练的版本)的准确率从28.2%提升到40.4%,提升幅度达到43.2%。更令人惊喜的是,模型的平均输出长度从12333个token降低到7093个token,减少了42.4%。这就像一个学生不仅考试成绩从28分提高到40分,答题时间还从原来的2小时缩短到1.5小时。

SIRI-high版本(经过扩张阶段优化的版本)的表现更加出色,准确率达到43.6%,同时平均输出长度控制在10049个token。虽然比SIRI-low版本稍长,但仍然比原始模型短了18.5%,而准确率提升幅度达到54.6%。

在其他测试集上,SIRI方法同样表现优异。在AIME25数据集上,SIRI-high版本的准确率达到32.2%,比原始模型的21.5%提升了近50%。在相对简单的AMC数学竞赛题上,准确率从61.8%提升到75.9%,在MATH500数据集上从82.4%提升到88.4%。

更重要的是,研究团队引入了一个新的评估指标:准确率-压缩比(Accuracy-CR ratio),用来综合评估模型在准确性和效率方面的整体改进。SIRI方法在这个指标上表现最优,达到0.47,远超其他比较方法。这个数字意味着SIRI方法在提升准确率和减少输出长度方面取得了最佳的平衡。

五、深入机制分析:为什么SIRI如此有效

为了理解SIRI方法成功的内在机制,研究团队进行了深入的行为分析。他们发现,SIRI训练主要影响了模型的"回溯验证"行为,这是一个关键发现。

通过分析模型在不同训练阶段使用特定词汇的频率,研究团队发现了有趣的规律。代表回溯和验证的词汇(如"等等"、"再检查一下")在压缩阶段使用频率显著降低,而在扩张阶段又会增加。相比之下,代表一般推理的词汇(如"因此"、"计算")的使用频率基本保持稳定。

这表明SIRI方法主要优化的是模型的"质疑和验证"行为,而不是基础的推理能力。在压缩阶段,模型学会了减少不必要的反复验证和回溯,更加直接地进行推理。在扩张阶段,模型又恢复了适度的验证行为,但这种验证变得更加有针对性和高效。

从信息论的角度来看,研究团队还分析了模型输出的熵值变化。他们发现,在压缩阶段,模型的输出熵值会下降,表明模型的回答变得更加确定和集中。在扩张阶段,熵值又会适度上升,表明模型重新获得了探索多种可能性的能力。但整个过程中,熵值始终保持在一个稳定的范围内,没有出现崩塌现象,这说明模型的多样性得到了很好的保持。

这种熵值的周期性变化类似于一个人在思考问题时的心理状态变化。当面临严格的时间限制时,人会快速收敛到最可能正确的答案;当时间充裕时,人又会重新考虑各种可能性。SIRI方法成功地在模型中复现了这种自然的认知模式。

六、方法的普适性:不同规模模型的表现

SIRI方法的另一个重要优势是其良好的普适性。研究团队在不同规模的模型上都验证了方法的有效性,从1.5B参数的小型模型到7B参数的中型模型,SIRI都能带来显著的改进。

在7B模型上,SIRI方法的改进幅度虽然相对较小(因为大模型本身的基础性能已经很好),但仍然非常明显。原始7B模型在AIME24上的准确率为53.5%,经过SIRI训练后提升到57.1%,同时输出长度从10306个token减少到8585个token。这种改进对于大模型来说已经相当不错,因为大模型的性能提升通常比小模型更加困难。

更重要的是,SIRI方法在不同难度的任务上都表现稳定。在相对简单的AMC和MATH500数据集上,方法能够保持高准确率的同时大幅减少输出长度。在困难的AIME24和AIME25数据集上,方法能够显著提升准确率,同时实现适度的长度压缩。这种一致性表明SIRI方法捕捉到了推理过程中的一般性规律,而不是针对特定任务的偶然优化。

研究团队还比较了SIRI方法与其他长度压缩方法的效果。传统的长度惩罚方法(如DAST)和"思考/不思考"切换方法(如AdaptThink)在某些指标上可能表现不错,但往往会在其他指标上有所牺牲。只有SIRI方法能够在准确率和效率两个维度上都取得显著改进,真正实现了"鱼与熊掌兼得"。

七、技术细节与实现挑战

SIRI方法虽然概念简单,但在实际实现中涉及许多技术细节。研究团队采用了改进的强化学习算法GRPO(Group Relative Policy Optimization),这是一种比传统PPO算法更适合大型语言模型训练的方法。

在奖励函数设计上,研究团队采用了"长度截断奖励"机制。具体来说,只有当模型在指定长度内给出正确答案时才能获得奖励。如果模型的输出超过了长度限制,即使最终答案正确,也会被截断并被视为错误答案。这种严格的奖励机制迫使模型学会在有限空间内完成推理。

长度调度器的设计也经过了精心优化。研究团队发现,调度周期的长度对训练效果有重要影响。太短的周期(如320步)会导致模型在压缩阶段性能急剧下降,来不及恢复就又进入下一轮压缩。太长的周期虽然避免了性能下降,但训练效率较低。640步的周期长度经过实验验证是最优的选择。

在实际训练中,研究团队使用了分布式训练系统,1.5B模型使用8块H100 GPU,7B模型使用16块H100 GPU。整个训练过程需要大约2000个训练步骤,相当于3-4天的连续训练时间。这种训练成本相比传统方法并没有显著增加,但效果提升明显。

八、实际应用价值与影响

SIRI方法的成功不仅仅是学术研究的突破,更有着重要的实际应用价值。在当前AI服务商业化的背景下,计算成本是一个关键考量因素。API调用通常按照输入和输出的token数量收费,SIRI方法能够在提升准确率的同时减少输出长度,这直接意味着使用成本的降低。

对于企业用户来说,SIRI训练的模型能够提供更高质量的服务。在数学教育、代码生成、逻辑推理等需要精确答案的场景中,更高的准确率意味着更少的错误和返工。同时,更简洁的输出也提升了用户体验,减少了阅读和理解的负担。

从环境保护的角度来看,SIRI方法也具有积极意义。AI模型的能耗主要来自于计算量,而输出长度的减少直接对应于计算量的降低。大规模部署SIRI训练的模型,可以显著减少数据中心的能耗,这对于实现绿色AI具有重要意义。

对于AI研究社区来说,SIRI方法提供了一个新的研究范式。它表明,通过巧妙的训练策略设计,可以同时优化多个看似冲突的目标。这种思路可能被推广到其他AI任务中,如图像生成、语音合成等,为整个AI领域的发展提供新的启发。

研究团队已经将训练好的模型公开发布,使得其他研究者和开发者可以直接使用或在此基础上进一步改进。这种开放的研究态度有助于加速整个领域的进步,让更多人能够受益于这项技术突破。

说到底,SIRI方法解决的是AI系统中一个看似矛盾的问题:如何让模型既聪明又简洁。这个问题的解决不仅提升了AI系统的实用性,也为我们理解智能本身提供了新的视角。真正的智能也许不在于能够产生多么复杂的思考过程,而在于能够在恰当的时候选择恰当的思考深度。SIRI方法让我们看到,通过合理的学习策略,AI系统确实可以学会这种"智慧的简洁"。

这项研究的意义远不止于技术层面的改进。它告诉我们,在AI迅速发展的今天,我们不应该只追求模型的规模和复杂度,更应该关注如何让AI系统变得更加高效和实用。正如古人所说,"大道至简",最高明的技术往往体现在看似简单却深刻有效的解决方案中。SIRI方法正是这样一个例子,它用相对简单的训练策略解决了困扰AI社区已久的复杂问题,这本身就是一种令人钦佩的智慧。

Q&A

Q1:SIRI方法是什么?它是如何工作的?

A:SIRI是清华大学开发的一种AI模型训练方法,全称是"交替压缩的迭代强化学习"。它的核心思想是在训练过程中交替进行"压缩"和"扩张"两个阶段。压缩阶段限制模型的输出长度,迫使其学会精准表达;扩张阶段放宽限制,让模型充分思考。通过这种循环训练,模型最终学会了在保持高准确率的同时大幅减少冗余内容。

Q2:SIRI方法的训练效果有多好?

A:实验结果非常显著。在数学竞赛AIME24测试中,使用SIRI方法训练的1.5B参数模型准确率提升了43.2%,同时输出文字减少了46.9%。在其他测试集上也有类似的改进,真正实现了"又快又准"的效果。更重要的是,这种改进在不同规模的模型上都得到了验证。

Q3:SIRI方法对普通用户有什么实际好处?

A:对普通用户来说,SIRI训练的模型意味着更好的使用体验和更低的成本。首先,模型回答更加简洁明了,减少了阅读负担;其次,更高的准确率意味着更少的错误答案;最后,由于输出长度减少,API调用成本也会降低。这对于需要大量使用AI服务的企业和个人用户都是实实在在的好处。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新