![]()
这项由meta的Devvrit Khatri、Lovish Madaan等多位研究者领导的重要研究发表于2025年10月的arXiv预印本平台(论文编号:2510.13786v1),标题为《The Art of Scaling Reinforcement Learning Compute for LLMs》。该研究汇集了来自meta、德克萨斯大学奥斯汀分校、伦敦大学学院、加州大学伯克利分校、哈佛大学等多所知名机构的研究力量。有兴趣深入了解的读者可以通过arXiv:2510.13786v1查询完整论文。
当我们训练大型AI语言模型时,就像培养一个非常聪明但还不够成熟的学生。在基础教育阶段,我们给它喂大量的文本资料,让它掌握语言的基本规律——这个过程叫做"预训练"。但光有基础知识还不够,我们还需要教会它如何正确推理和思考,这就需要用到一种叫做"强化学习"的训练方法。
想象一下,你正在教一个聪明的孩子解数学题。每当他给出正确答案时,你就夸奖他;答错了,你就指出错误。通过这种反复的奖惩机制,孩子逐渐学会了更好的解题思路。强化学习训练AI模型的过程与此类似,只不过规模要大得多——我们可能需要数万甚至数十万小时的计算时间。
然而,长期以来,这种强化学习训练一直像是一门艺术而非科学。不同的研究团队各自摸索,没有统一的标准和可预测的方法。这就好比每个厨师都有自己的秘方,但没人知道为什么同样的食材在不同人手里会做出完全不同的菜品。更麻烦的是,由于训练成本极其昂贵,大多数研究团队根本承担不起大规模实验的费用,只能凭经验和直觉行事。
meta的研究团队意识到这个问题的严重性。他们观察到,目前最先进的AI推理模型,比如OpenAI的o1系列和DeepSeek的R1-Zero,都在强化学习训练上投入了巨大的计算资源。DeepSeek-R1-Zero就使用了10万个H800 GPU小时进行强化学习训练,这相当于其预训练计算量的3.75%。而且这个趋势还在快速增长,从o1到o3的计算量增长了超过10倍。
面对这种情况,研究团队决定进行一项前所未有的大规模系统性研究。他们投入了超过40万GPU小时的计算资源,相当于一台高性能计算机连续运行几千年的计算量,来彻底弄清楚强化学习训练的规律。这项研究的目标很明确:找到一套科学、可预测的方法,让任何研究团队都能根据较小规模的实验结果,准确预测大规模训练的效果。
一、强化学习训练的"增长曲线"之谜
在这项研究中,团队首先要解决的是如何科学地描述和预测AI模型在强化学习训练过程中的表现变化。这就像研究植物的生长规律一样,我们需要找到一个数学公式来描述它的成长曲线。
传统的AI预训练过程通常遵循"幂律"规律,就像复利增长一样——投入的计算资源越多,模型性能提升越明显,而且这种关系相对稳定。但强化学习训练的情况更复杂,更像是学习一项新技能的过程。
想象你在学习弹钢琴。刚开始时,你的进步很慢,需要反复练习基本指法。然后在某个阶段,你突然开窍了,进步速度急剧加快。但随着技能逐渐成熟,进步的速度又会放缓,最终趋于稳定。这种成长模式用数学术语叫做"S型曲线"或"sigmoid曲线"。
研究团队发现,AI模型在强化学习训练中的表现恰好符合这种S型增长模式。他们提出了一个精确的数学公式来描述这个过程:
想象你有一个学生,他的初始能力水平是R0,而他的最终能力上限是A。随着训练时间(用计算资源C表示)的增加,他的实际能力会按照一个S型曲线逐渐从R0增长到A。这个公式中还有两个关键参数:B表示学习效率(数值越大表示学得越快),Cmid表示达到一半潜力时需要的训练量。
这个发现的重要性不言而喻。就像天气预报一样,有了这个"增长公式",研究人员就可以根据前期的训练数据,相当准确地预测继续训练下去会得到什么结果。这意味着他们不需要真的花费巨额成本进行完整的大规模训练,就能提前知道哪些方法值得投入,哪些方法注定会失败。
为了验证这个公式的准确性,团队进行了一次史无前例的实验。他们用这个公式对一个需要10万GPU小时训练的模型进行了预测,仅仅基于前5万GPU小时的数据,就成功预测了最终的训练效果。当真正的训练结束时,实际结果与预测几乎完全吻合,证明了这套方法的可靠性。
二、寻找最佳"训练配方"的系统性探索
有了预测工具后,研究团队开始了一项雄心勃勃的任务:在强化学习训练的各种可能方法中,找出一套最优的"标准配方"。这就像是要在成千上万种可能的烹饪方法中,找出做出最美味菜肴的完美食谱。
他们面临的挑战是巨大的。强化学习训练涉及许多技术细节,每个细节都可能影响最终效果。比如说,应该如何处理训练数据?如何设定奖惩机制?如何分配计算资源?应该用什么样的算法?每个选择都有多种可能,而且这些选择之间还会相互影响。
为了系统性地解决这个问题,团队采用了类似制药行业新药研发的方法。他们先确定了几个最关键的技术维度,然后在每个维度上进行详细的对比实验。这个过程就像是在实验室里测试不同的化学配方,每次只改变一个变量,观察结果的变化。
在异步训练算法的选择上,团队对比了两种主流方法。第一种是传统的"PPO-off-policy"方法,就像是批量生产模式——先收集一大批训练样本,然后批量处理。第二种是新兴的"PipelineRL"方法,更像是流水线生产——训练样本一产生就立即处理,同时新的样本也在不断生成。
实验结果令人印象深刻。虽然两种方法最终都能达到相似的性能上限,但PipelineRL方法的效率明显更高。用生产线的比喻来说,就是PipelineRL减少了生产过程中的等待时间,让整个系统更高效地运转。因此,团队将PipelineRL确定为标准配方的基础组件。
在损失函数的选择上,团队对比了三种不同的方法。传统的DAPO方法就像是用普通的计分规则;GSPO方法改进了计分方式,但仍有局限性;而CISPO方法则采用了一种更加稳健的评分机制。通过大量实验,他们发现CISPO不仅能达到更高的性能上限,而且训练过程更加稳定,不容易出现意外的崩溃。
数值精度的问题听起来很技术性,但实际上非常重要。这就像精密仪器的校准问题——即使是微小的测量误差,在大规模训练过程中也会被放大,最终导致严重的偏差。团队发现,在模型的关键计算部分使用更高精度的数值计算(FP32精度),能够显著提升训练的稳定性和最终性能。
在训练数据的处理策略上,团队也进行了细致的优化。他们发现,简单地排除那些没有学习价值的训练样本(比如模型已经完全掌握的简单问题),能够显著提高训练效率。这就像是为学生量身定制学习计划,避免让他们反复练习已经熟练掌握的内容。
经过这一系列的系统性实验和优化,团队最终总结出了一套名为"ScaleRL"的标准训练配方。这套配方不是简单的方法组合,而是经过科学验证的最优方案。更重要的是,它不仅性能优秀,而且训练过程可预测、可重现。
三、ScaleRL配方的深度验证与优化
为了确保ScaleRL配方的每个组成部分都是必要且最优的,研究团队进行了一系列"留一验证"实验。这种方法就像是测试一道菜谱中每种调料的作用——每次去掉一种调料,看看会对最终味道产生什么影响。
在这些验证实验中,团队发现了一个有趣的现象。虽然ScaleRL的每个组成部分单独看起来可能作用有限,但当它们组合在一起时,却产生了显著的协同效应。这就像音乐中的和声一样,单独的音符可能很普通,但合在一起就能创造出美妙的旋律。
特别值得注意的是,一些在小规模实验中看起来效果不明显的改进,在大规模训练中却发挥了关键作用。比如FP32精度的数值计算,在8B参数的模型上效果并不突出,但在17B×16的混合专家模型上却带来了显著的性能提升。这说明了大规模验证的重要性——我们不能仅仅根据小规模实验的结果就下结论。
团队还特别关注了训练过程的稳定性问题。在强化学习训练中,一个常见的问题是生成文本长度的失控增长。想象一下,如果一个学生在考试时写个不停,但写的内容越来越偏离主题,这显然不是我们想要的结果。为了解决这个问题,ScaleRL采用了一种巧妙的"强制中断"机制,就像是给学生设定合理的答题时间限制。
实验结果表明,ScaleRL在各种不同的训练规模下都表现出了良好的可预测性。无论是在小规模的探索性实验中,还是在消耗数万GPU小时的大规模训练中,它的表现都严格按照S型增长曲线发展,没有出现意外的波动或崩溃。
为了进一步验证ScaleRL的通用性,团队在多种不同的设置下进行了测试。他们发现,无论是增加批次大小、延长生成文本长度、扩大模型规模,还是同时训练多种任务,ScaleRL都能保持稳定的性能和可预测的增长模式。这种一致性证明了这套方法的鲁棒性和实用价值。
四、多维度扩展实验的惊人发现
在确认了ScaleRL配方的有效性之后,研究团队开始探索一个更深层的问题:在固定的计算预算下,应该如何分配资源才能获得最佳效果?这就像是在有限的预算下装修房子,你需要决定是买更好的材料、请更多的工人,还是延长施工时间。
他们设计了多个维度的扩展实验,每次只改变一个变量,观察对最终效果的影响。这种方法让他们能够准确地评估每种资源投入的性价比。
在模型规模的实验中,团队对比了8B参数的标准模型和17B×16的混合专家模型。结果令人惊喜:更大的模型不仅最终性能更好,而且训练效率也更高。这就像是技能更熟练的工匠,不仅工作质量更好,而且学习新技术的速度也更快。更重要的是,大模型在训练过程中表现出了更好的稳定性,很少出现意外的问题。
生成长度的实验揭示了另一个有趣的规律。当研究团队将AI生成文本的长度从14k个词符增加到32k个词符时,他们发现这就像是给学生更多的答题空间。虽然在训练初期,长文本生成的进步速度较慢,但最终能够达到更高的性能水平。这说明了给AI模型更多"思考空间"的价值。
批次大小的实验结果更是出人意料。研究团队发现,较大的批次不仅能带来更高的最终性能,还能避免在某些下游任务上的性能停滞问题。这就像是班级规模对教学效果的影响——虽然大班教学在初期可能效率较低,但在长期学习中却能带来更好的效果。
在多任务学习的实验中,团队同时训练AI模型处理数学和编程问题。结果显示,ScaleRL能够在不同任务上保持一致的增长模式,证明了其在复杂应用场景下的适用性。这就像是培养一个既会数学又会编程的全才学生,虽然难度更大,但ScaleRL提供了可靠的训练路径。
这些多维度实验最重要的发现是,所有的扩展都遵循着相同的S型增长规律。这意味着研究人员可以根据小规模实验的结果,准确预测在更大规模、更复杂设置下的训练效果。这种可预测性是强化学习训练从"艺术"走向"科学"的关键标志。
五、训练稳定性与故障诊断的深度洞察
在长时间的大规模训练过程中,保持稳定性是一个巨大的挑战。这就像长途航行中保持船只的稳定一样,需要时刻监控各种指标,及时发现和解决问题。
研究团队发现,训练过程中的"截断率"是一个关键的预警指标。当AI生成的文本长度超出预设限制时,系统会强制截断,这种情况的发生频率就是截断率。如果截断率过高(超过10-15%),通常预示着训练即将变得不稳定。这就像汽车发动机的温度指示器,当温度过高时就需要立即采取措施。
在不同的训练设置下,ScaleRL表现出了不同程度的稳定性。在8B模型的训练中,截断率通常能控制在5%以下,显示出良好的稳定性。而当批次大小增加到2048时,截断率偶尔会上升到7%左右,但由于有效批次大小仍然足够大,训练依然保持稳定。
更大的模型展现出了更强的鲁棒性。在17B×16混合专家模型的训练中,截断率始终保持在2%以下,90%的训练步骤中甚至低于1%。这种稳定性可能源于大模型更强的指令遵循能力和更好的生成长度控制能力。
团队还深入分析了不同方法的稳定性差异。传统的GRPO方法在训练后期经常出现不稳定现象,这与截断率的上升密切相关。而ScaleRL通过精心设计的各个组件,有效地避免了这些问题。
为了帮助其他研究者避免常见的训练陷阱,团队总结了一套监控和诊断指南。他们建议研究者密切关注截断率的变化趋势,当发现异常波动时应及时调整训练参数。同时,他们还发现,适当增加生成长度预算、使用更大的模型、以及采用ScaleRL的设计原则,都能显著提高训练的稳定性。
六、与现有方法的全面对比分析
为了客观评估ScaleRL的优势,研究团队进行了与当前主流方法的详细对比。这就像是在同一赛道上比较不同赛车的性能,确保比较的公平性和结论的可信度。
他们选择了几个代表性的现有方法进行对比,包括DeepSeek使用的GRPO方法、Qwen2.5采用的DAPO方法、Magistral的配方,以及MiniMax的方案。每种方法都代表了当前业界的不同技术路线。
对比结果令人印象深刻。ScaleRL在最终性能(用S型曲线的上限参数A表示)上显著超越了所有对比方法,达到了0.61的水平,而其他方法大多在0.49-0.59之间。更重要的是,ScaleRL还展现出了更好的训练效率(用参数B表示),意味着它能更快地接近最终性能。
特别值得注意的是,一些在小规模训练中看起来很有前途的方法,在大规模训练中却遇到了瓶颈。这再次证明了"苦涩教训"的存在——在AI领域,简单粗暴的计算资源投入往往比精巧的算法设计更有效。但ScaleRL的优势在于,它既能充分利用大规模计算资源,又保持了高度的可预测性。
在可预测性方面,ScaleRL和部分对比方法(如MiniMax)都表现出了良好的特性,即实际训练结果与S型曲线预测高度吻合。但一些传统方法在训练后期会出现偏离预测轨迹的情况,这大大降低了它们的实用价值。
研究团队还特别分析了不同方法在超参数敏感性方面的差异。ScaleRL采用的CISPO损失函数在关键超参数的选择上表现出了很强的鲁棒性,而传统的DAPO方法则对超参数的设置非常敏感。这种差异在实际应用中非常重要,因为它决定了方法的易用性和可靠性。
七、实用价值与未来应用前景
这项研究的最大价值在于为强化学习训练提供了一套科学、可预测的方法论。这就像是为一个原本充满不确定性的领域建立了第一套可靠的导航系统。
对于工业界来说,ScaleRL的意义是革命性的。以前,公司在决定是否投入巨额计算资源进行大规模强化学习训练时,很大程度上需要依靠直觉和经验。现在,他们可以通过相对较小的实验来准确预测大规模训练的效果,从而做出更明智的投资决策。
对于学术界来说,这项研究为强化学习的可扩展性研究建立了标准。S型增长曲线不仅可以用来预测训练效果,还可以用来比较不同算法的优劣。这为该领域的科学化发展提供了重要的工具。
更重要的是,这套方法论具有很强的通用性。虽然当前的实验主要集中在数学推理任务上,但团队在多任务实验中已经证明了其在代码生成等其他领域的有效性。随着更多研究者采用这套方法,我们有理由相信它将在更广泛的应用领域发挥作用。
从技术发展的角度来看,这项研究也为未来的研究方向提供了指引。团队提出了几个值得进一步探索的方向,包括如何在预训练、模型规模和强化学习训练数据之间建立统一的扩展定律,如何将结构化奖励和密集奖励纳入扩展框架,以及如何将这套方法论推广到多轮对话强化学习等更复杂的场景。
特别值得一提的是,这项研究的开放性也值得称赞。团队不仅公开了详细的技术细节,还发布了用于拟合计算-性能曲线的代码工具,使其他研究者能够轻松应用这套方法。这种开放的态度将加速整个领域的发展。
八、方法论的科学意义与理论贡献
从更深层的科学角度来看,这项研究的贡献远远超出了技术改进的范畴。它为人工智能训练过程的科学化理解提供了重要的理论基础。
首先,S型增长曲线的发现揭示了AI模型学习过程的本质规律。这种先慢后快再趋缓的学习模式不仅符合我们对生物学习过程的直觉理解,也为我们理解AI系统的认知发展提供了新的视角。这就像发现了AI版本的"学习曲线理论"。
其次,通过大量系统性实验,研究团队建立了强化学习训练中各种设计选择的影响图谱。他们发现,有些选择主要影响最终性能的上限,而另一些选择主要影响达到上限的效率。这种区分对于理解不同技术组件的作用机制具有重要意义。
第三,这项研究证明了"组合效应"在复杂系统优化中的重要性。虽然ScaleRL的每个组成部分单独看来可能改进有限,但当它们有机结合时,却产生了显著的整体优势。这提醒我们,在复杂系统的优化中,局部最优的简单叠加往往不等于全局最优。
从研究方法论的角度来看,这项工作也展示了如何在计算资源极其昂贵的领域进行科学研究。通过精心设计的实验策略和预测模型,研究团队用相对较少的资源获得了关于大规模训练的可靠知识。这种"以小见大"的研究范式可能会被其他昂贵的AI研究领域所借鉴。
更重要的是,这项研究为AI安全和可控性研究提供了新的工具。可预测的训练过程意味着更好的控制能力,这对于确保强大AI系统的安全发展具有重要意义。当我们能够准确预测AI系统在大规模训练后的能力时,就更容易评估和管理相关的风险。
说到底,这项来自meta团队的研究为我们打开了一扇新的大门。它不仅提供了一套实用的训练方法,更重要的是建立了一套科学的思维框架。在这个框架下,强化学习训练不再是一门只能靠经验和直觉的艺术,而是一门有规律可循、有方法可依的科学。
对于普通人来说,这意味着未来的AI系统将变得更加可靠和可预测。我们不需要担心AI训练过程中的意外状况,因为研究者们现在有了科学的工具来预测和控制这些过程。随着更多研究团队采用类似的科学方法,我们有理由期待AI技术的发展会变得更加稳健和可持续。
这项研究也提醒我们,即使在最前沿的技术领域,基础科学研究仍然具有不可替代的价值。通过深入理解AI训练过程的基本规律,我们不仅能够改进现有的技术,更能为未来的创新奠定坚实的基础。正如那句古话所说,"磨刀不误砍柴工",花时间理解基本规律的投入,最终会以更高的效率和更好的结果得到回报。
Q&A
Q1:ScaleRL是什么?
A:ScaleRL是meta研究团队开发的一套科学化强化学习训练配方,它的核心特点是能够预测AI模型在大规模训练中的表现。就像有了可靠的烹饪食谱一样,研究者可以根据小规模实验结果准确预测大规模训练效果,避免盲目投入巨额计算资源。
Q2:S型增长曲线预测准确吗?
A:非常准确。研究团队用这个预测公式对需要10万GPU小时的训练进行了预测,仅基于前5万小时的数据就成功预测了最终结果。实际训练结束时,真实结果与预测几乎完全吻合,证明了这套方法的可靠性。
Q3:普通研究团队能使用ScaleRL吗?
A:完全可以。研究团队不仅公开了详细的技术方案,还发布了用于拟合计算-性能曲线的代码工具。任何有一定计算资源的研究团队都可以先进行小规模实验,然后用ScaleRL方法预测大规模训练效果,大大降低了研究门槛和风险。





京公网安备 11011402013531号