![]()
这项由腾讯AI实验室的梁振文、陆斯迪、俞文浩、基山·帕纳甘蒂、周宇君、米海涛和俞栋等人共同完成的研究发表于2025年12月,论文编号为arXiv:2512.15687v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这个研究团队中还有一位来自圣母大学的研究人员周宇君,形成了产学研的有力合作。
当我们教孩子解决数学题时,通常会鼓励他们尝试不同的方法。如果一个孩子总是用同一种方式解题,即使答案正确,我们也会担心他的思维过于狭窄。同样的问题也困扰着人工智能的训练过程。目前的AI模型在学习推理时,就像那个只会一种解题方法的孩子,容易陷入思维定势。
腾讯的研究团队发现了一个关键问题:现有的AI训练方法在鼓励模型探索新思路时,采用的策略就像是盲人摸象。这些方法要么简单地增加输出的随机性,要么依赖外部的评判标准来衡量多样性,但都没有真正理解AI模型内部是如何学习和更新的。这就好比一个教练在指导运动员训练时,从来不观察运动员的肌肉反应和身体状态,只是盲目地要求运动员做各种不同的动作。
研究团队提出了一个革命性的想法:让AI模型观察自己的"思考过程",根据自己的学习需求来指导探索方向。他们开发了一种叫做G?RL(梯度引导强化学习)的新方法。这个方法的核心思想是,AI模型可以通过分析自己的"神经反应"来判断不同的解题路径是否能提供新的学习价值。
一、AI探索学习的困境:为什么现有方法像在黑暗中摸索
要理解这项研究的突破性,我们需要先了解AI模型是如何学习推理的。当AI模型学习解决数学题时,它会生成多个不同的解答,然后根据这些解答的正确性来调整自己的"思维模式"。这个过程类似于学生做练习题后老师批改并给出指导。
然而,传统的训练方法存在一个根本缺陷。它们在鼓励AI生成多样化答案时,使用的标准与AI实际的学习机制是脱节的。比如,有些方法会简单地增加AI输出的随机性,这就像要求学生在考试时随机选择答案一样,表面上看起来很多样,但对真正的学习毫无帮助。
另一些方法则依赖外部的语义相似度模型来评判答案的多样性。这种做法的问题在于,外部评判器对"多样性"的理解与AI模型的内在学习需求并不一致。就像一个不懂音乐的人试图指导音乐家练习一样,可能会认为两首曲子听起来很不同,但实际上它们在音乐理论上可能没有本质区别。
更关键的是,这些方法都忽略了AI学习的本质机制。AI模型的学习过程实际上是通过调整内部参数来改善表现,这些参数的调整方向被称为"梯度"。如果两个看似不同的答案实际上引导模型朝着相同的方向调整参数,那么从学习效果来看,它们就是冗余的。这就像两条看起来不同的路径,如果最终都通向同一个目的地,对于旅行者来说实际价值是相同的。
研究团队通过深入分析发现,传统方法产生的"多样化"答案中,很多在优化空间中实际上是高度相似的,这导致AI模型的学习过程缺乏真正有效的探索,容易陷入局部最优解,就像一个人总是走同一条路上班,永远不知道是否有更好的路线。
二、G?RL方法的核心创新:让AI成为自己的探索指南
G?RL方法的突破在于它让AI模型能够"内视"自己的学习过程,根据自己的梯度信息来指导探索方向。这个概念可以用一个生动的比喻来理解:传统方法就像让一个盲人在陌生环境中探索,只能依靠外人的指导,而G?RL则给了这个人一套内在的感知系统,让他能够感受到不同路径对自己身体的影响,从而做出更明智的选择。
具体来说,G?RL方法的工作原理是这样的:当AI模型生成一个答案时,研究团队设计了一种方法来提取这个答案对应的"梯度特征",这个特征可以理解为答案对模型参数调整方向的影响程度。这个提取过程非常巧妙,它只需要利用模型正常推理过程中已经计算的信息,不需要额外的计算负担,就像在汽车行驶过程中顺便记录路面状况一样。
在获得每个答案的梯度特征后,G?RL会比较同一组答案之间的特征相似性。如果一个答案的梯度特征与其他正确答案的特征高度相似,说明这个答案在学习价值上是冗余的,就像一首歌的不同版本,虽然听起来可能略有不同,但给人的情感体验基本相同。相反,如果一个答案的梯度特征与其他答案正交或相反,说明它能为模型提供全新的学习信息,就像在音乐创作中加入了全新的和弦进行。
G?RL方法还设计了一个巧妙的奖励调节机制。对于正确答案,如果其梯度特征显示出高度的新颖性,系统会给予额外的奖励,鼓励模型继续探索这类解题路径。对于错误答案,如果其梯度特征与正确答案接近,说明这个错误可能是"接近正确"的,系统会减轻惩罚,避免模型完全放弃这个有潜力的思路。反之,如果错误答案的梯度特征与正确答案相差甚远,说明这可能是完全错误的方向,系统会加重惩罚。
这种机制的精妙之处在于它实现了自适应的探索指导。就像一个经验丰富的老师,能够根据学生的具体表现给出针对性的指导,既鼓励有价值的创新尝试,又及时纠正明显的错误方向。
三、实验验证:在多个数学推理任务上的卓越表现
为了验证G?RL方法的有效性,研究团队在多个具有挑战性的数学推理任务上进行了全面测试。这些测试就像是给AI学生安排了从基础到高级的各种数学考试,包括MATH500、AMC、AIME24、AIME25等知名数学竞赛数据集,还包括GPQA和MMLUpro等综合推理任务。
实验采用了两个不同规模的Qwen3基础模型:1.7B和4B参数版本。这种对比设计就像是同时测试小学生和中学生的学习效果,能够验证方法在不同能力水平上的普适性。
在最关键的单次答题准确率(pass@1)指标上,G?RL方法在所有测试任务上都取得了显著提升。在1.7B模型上,AIME25任务的单次准确率从基础方法的4.6%提升到7.5%,这个63%的相对提升是相当显著的。在更大的4B模型上,AIME25的单次准确率更是从17.5%提升到20.1%。这种提升不仅在数字上令人印象深刻,更重要的是它表明AI模型真正学会了更有效的推理方法。
在多样性采样方面,G?RL方法也表现出色。maj@16指标衡量的是在16次尝试中通过多数投票得出正确答案的能力,这类似于让学生同时用多种方法解决问题,然后选择最可信的答案。在这个指标上,G?RL在AIME25任务中将4B模型的表现从23.9%提升到29.0%,显示出该方法不仅提高了单次答题的质量,还增强了模型生成互补性解答的能力。
特别值得关注的是训练动态分析。研究团队发现,与传统的熵奖励方法相比,G?RL方法能够更快地提升准确率,同时保持合理的响应长度增长。这表明G?RL鼓励的是有意义的推理扩展,而不是简单的词汇堆砌。传统方法往往会导致熵值的无控制增长,就像学生为了显示思考过程而写出冗长但无用的解答,而G?RL则能引导模型产生既详细又有针对性的推理。
四、探索几何的深层分析:发现AI学习的隐藏模式
研究团队进行了一项特别有趣的几何分析,来理解G?RL方法为什么如此有效。他们分析了不同方法生成的答案在梯度空间中的分布模式,这项分析就像是观察学生解题思路在思维地图上的分布情况。
分析结果揭示了一个令人震惊的发现:传统的GRPO方法生成的答案虽然在语义上看起来多样,但在梯度空间中却高度聚集,平均余弦相似度高达0.208。这意味着这些看似不同的答案实际上都在推动模型朝着相同的方向学习,就像多个学生用不同的表述方式说同一件事。
更关键的是,研究团队发现了梯度空间中"负相似度"的重要性。当两个答案的梯度特征呈现负相似度时,意味着它们在优化空间中指向相反的方向,这种对立能够为模型提供更全面的学习信号。传统GRPO方法中只有5.9%的答案对存在负相似度,而G?RL方法将这个比例大幅提升到28.1%,增加了近5倍。
这个发现的深层含义非常重要。在机器学习中,互相对立的梯度方向能够帮助模型避免陷入局部最优解,就像在登山时,如果只知道一个方向是向上的,可能会错过真正的山顶,但如果能够从多个相反的角度观察地形,就更容易找到全局最优路径。
令人惊讶的是,G?RL方法在大幅增加梯度多样性的同时,实际上保持了更高的语义一致性。在外部语义编码器的评估中,G?RL生成的答案平均语义相似度为0.769,高于传统方法的0.738。这表明G?RL方法能够在保持主题相关性和逻辑连贯性的前提下,最大化学习价值的多样性。这种平衡就像一个优秀的音乐家,能够在保持音乐主题统一的同时,运用丰富多样的变奏技巧。
五、理论洞察:重新理解AI探索的本质
G?RL方法的成功不仅在于实验结果,更在于它揭示了AI探索学习的深层理论原理。研究团队通过严格的数学分析证明了一个重要观点:AI模型的所有参数更新都可以分解为通过最后一层特征的线性变换,这意味着最后一层的梯度特征实际上是整个网络学习信号的关键瓶颈。
这个发现可以用一个水管系统来比喻:虽然整个供水系统有很多管道和阀门,但如果有一个关键的主管道控制着水流方向,那么通过监控这个主管道的水流模式,就能了解整个系统的工作状态。在AI模型中,最后一层就是这样的主管道,它的梯度特征反映了整个网络的学习趋势。
基于这个理论基础,G?RL方法不是简单地增加输出的表面多样性,而是在优化的根本层面上引导探索。这种方法解决了一个长期存在的问题:如何在稀疏奖励环境中进行有效的信用分配。在数学推理任务中,答案要么完全正确,要么完全错误,没有中间状态。这种二元奖励使得传统方法难以区分不同正确答案的学习价值。
G?RL通过梯度引导的奖励调节机制,实现了更精细的信用分配。即使在相同的正确性类别中,不同答案也会根据其对学习的贡献程度获得不同的权重。这就像一个明智的老师,不仅会表扬答对题目的学生,还会特别鼓励那些用创新方法解题的学生,因为这些创新思路对整个班级的学习都有更大价值。
六、方法的实用性:简单高效的工程实现
G?RL方法的另一个重要优势是其实现的简洁性。整个梯度特征提取过程都可以在模型的正常前向推理过程中完成,不需要额外的反向传播计算。这种设计就像在汽车行驶过程中顺便记录油耗信息一样,不会增加额外的计算负担。
具体的实现过程可以分解为几个简单步骤:首先,在模型生成每个词汇时,系统会记录最后一层的激活状态和词汇概率分布;然后,通过简单的矩阵运算计算每个位置的梯度特征;最后,将所有位置的特征加权聚合成序列级别的特征向量。整个过程的计算开销微不足道,主要消耗在于几次矩阵-向量乘法运算。
在训练框架方面,G?RL可以无缝集成到现有的强化学习流水线中。它只是修改了优势函数的计算方式,保留了PPO(近端策略优化)的所有稳定性保证和KL散度控制机制。这种设计使得研究人员和工程师可以在最小的代码修改下体验G?RL的效果,大大降低了技术采用的门槛。
研究团队还特别注意了奖励缩放的稳定性。他们将梯度引导的奖励因子限制在一个有界范围内,并对最终奖励进行裁剪,确保训练过程的稳定性。这种保守的设计哲学体现了工程实践中的重要原则:在追求性能提升的同时,绝不能牺牲系统的稳定性和可预测性。
七、更广泛的适用性:从数学推理到通用推理
虽然G?RL方法在数学推理任务上得到了充分验证,但研究团队也测试了其在更广泛推理任务上的表现。在GPQA(研究生级物理、化学、生物问题)和MMLUpro(大规模多任务理解)等综合性任务上,G?RL同样展现出稳定的性能提升。
在GPQA任务中,G?RL将单次准确率从37.4%提升到38.7%,16次采样的通过率从88.9%提升到89.2%。虽然这些提升看起来相对较小,但考虑到GPQA任务的高难度(这些是研究生水平的科学问题),任何性能提升都是值得重视的。更重要的是,这些结果证明了G?RL方法的通用性,它不仅适用于纯数学问题,也能处理需要科学知识和推理能力的复合任务。
在MMLUpro这个包含多个学科领域的大规模基准测试中,G?RL获得了58.47%的微平均准确率,超过了所有基线方法。这个结果特别有意义,因为它表明梯度引导的探索策略能够在不同类型的推理任务中都产生积极效果,而不是局限于特定的问题域。
这种广泛的适用性源于G?RL方法的根本设计理念:它不依赖于特定任务的先验知识,而是通过观察模型自身的学习动态来指导探索。这种任务无关的特性使得G?RL具有很强的可迁移性,就像一种通用的学习策略,无论是学习数学、物理还是其他学科,都能发挥作用。
八、未来影响:重塑AI训练的新范式
G?RL方法的意义远超其具体的技术实现,它代表了AI训练范式的一个重要转向:从外部指导的探索转向内在驱动的自主学习。这种转变的深远影响可能会在多个层面上显现出来。
在技术层面,G?RL为探索导向的强化学习开辟了新的研究方向。传统的探索方法主要关注行为空间或状态空间的多样性,而G?RL则直接在优化空间中进行探索指导。这种"元优化"的思路可能会启发更多创新方法,就像开辟了一个全新的研究领域。
在实际应用层面,G?RL方法的成功可能会推动AI系统在各种复杂推理任务中的表现提升。无论是科学研究、工程设计还是创意工作,都需要AI系统具备探索创新解决方案的能力。G?RL提供的自主探索机制可能会让AI在这些领域中表现得更加出色。
从更宏观的角度看,G?RL体现了AI系统走向真正自主学习的一个重要步骤。当AI能够理解和指导自己的学习过程时,它就具备了一种类似于人类自我反思和自我改进的能力。这种能力的发展可能会是通向更高级人工智能的关键环节。
当然,这项研究也带来了新的思考。如果AI系统能够越来越好地指导自己的学习过程,那么人类在AI发展中的角色会如何变化?如何确保这种自主学习的AI系统与人类价值观保持一致?这些问题需要整个AI研究社区的持续关注和研究。
说到底,G?RL方法的真正价值不仅在于它解决了当前AI训练中的一个具体问题,更在于它展示了一种全新的思考AI学习的方式。它告诉我们,最好的探索指导可能不来自外部的启发式方法,而是来自AI系统对自身学习过程的深度理解。这种洞察可能会深刻影响未来AI系统的设计和训练方式,推动整个领域向更加智能和自主的方向发展。
对于普通人来说,这项研究意味着未来的AI助手可能会具备更强的学习和适应能力,能够在面对新问题时主动探索最佳解决方案,而不是简单地重复已知的模式。这将使AI在教育、科研、创作等需要创新思维的领域发挥更大的作用,为人类社会带来更多价值。研究团队的这项工作为我们展现了AI发展的一个新的可能方向,值得持续关注其后续发展和应用。
Q&A
Q1:G?RL方法是什么,它解决了什么问题?
A:G?RL(梯度引导强化学习)是腾讯AI实验室开发的一种新型AI训练方法。它解决了现有AI训练中探索方式不够智能的问题——传统方法要么简单增加随机性,要么依赖外部判断,都无法真正理解AI内部的学习需求。G?RL让AI观察自己的"学习反应",根据这些信息来指导自己应该探索哪些新的解题思路。
Q2:G?RL方法在实验中的表现如何?
A:G?RL在多个数学推理任务上都取得了显著提升。在最困难的AIME25数学竞赛题目中,它将AI的单次答题准确率从17.5%提升到20.1%,多数投票准确率从23.9%提升到29.0%。更重要的是,它让AI生成的不同解法在学习价值上真正多样化,相互对立的解题思路增加了近5倍。
Q3:普通人能从G?RL方法的发展中获得什么好处?
A:G?RL方法代表了AI学习能力的重要进步,未来基于此技术的AI助手将具备更强的自主学习和问题解决能力。在教育领域,AI可能会提供更多样化的解题思路;在科研和创作中,AI将能够主动探索创新方案而非简单重复已知模式。这将让AI在需要创新思维的各种任务中为人类提供更有价值的帮助。





京公网安备 11011402013531号