当前位置: 首页 » 资讯 » 新科技 » 正文

RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案

IP属地 中国·北京 机器之心Pro 时间:2025-12-15 12:21:44




机器之心报道

机器之心编辑部

近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。

然而,后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力?目前尚不明确。

一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。

为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建基于 GSM-Infinite 的可控合成数据框架,在完全解耦的环境下,定量分析了预训练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。



https://x.com/xiangyue96/status/1998488030836044112

研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性的不同观点。

研究表明:

仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具难度但尚未超出模型能力范围的任务)时,RL 才能带来真正的能力增益(pass@128)。情境泛化需要极少但充分的预训练接触,在此之后 RL 便能实现可靠的迁移。在固定计算量下,相比于仅使用 RL,中期训练能显著提升性能,证明了其在训练流程中处于核心地位却未被充分探索。过程级奖励能减少奖励破解(Reward Hacking)现象并提高推理的忠实度。



论文标题:On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models论文地址:https://arxiv.org/abs/2512.07783Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-ReasoningHuggingFace:https://huggingface.co/Interplay-LM-Reasoning

综上所述,这些结果阐明了预训练、中期训练和 RL 之间的相互作用,为理解和改进推理语言模型的训练策略奠定了基础。

该工作登上了 Alphaxiv 榜一。



同时该工作在 AI 社区收获了一大波好评,ViT 作者之一 Lucas Beyer 也现身评论区。



核心方法:

完全可控的实验沙盒

为了从因果层面解构大模型的推理能力来源,研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料,而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术,旨在从源头控制数据分布、推理深度与语境广度。



数据生成框架与任务设置概览

基于依赖图(DAG)的数据生成

该框架的核心理念是将「推理结构」与「表面语境」完全解耦。



语境渲染:在确定了推理骨架后,系统通过应用不同的「语境模板」(如动物园、学校等场景),将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑,还是仅仅记住了特定的文本模式。

三阶段训练流程的严格隔离

为了避免数据污染导致的评估偏差,研究者定义了三个互不重叠的训练阶段,并在各阶段精确调配数据分布:

预训练:使用 10B token 的数据,主要包含基础的推理原语(Primitives)和规则。重点在于让模型掌握基础能力(op=2-10),同时保留更深层任务作为未见过的测试集。中期训练:这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布(即模型能力边缘的数据),旨在对齐模型的内部表征,使其做好「RL 就绪(RL-ready)」的准备。后训练(Post-training / RL):采用 GRPO 算法,针对特定的任务难度和语境进行强化学习,以探索模型在特定奖励信号下的能力边界。

过程级验证评估

为了防止模型「猜对答案」或通过错误的推理路径得出正确结果(即 Reward Hacking),该研究引入了过程级验证。系统不仅检查最终答案,还会解析模型生成的思维链,将其还原为依赖图,并与真实的一步步推理过程(Ground Truth DAG)进行比对。只有当推理步骤和最终答案全对时,才被判定为通过。

解构能力涌现的四个关键发现

基于上述框架,研究者进行了一系列控制变量实验,得出了关于 RL、预训练和中期训练相互作用的四个关键结论,有力地调和了学术界关于「RL 是否能创造新能力」的争议。

RL 的效用取决于「能力边缘」

RL 并非在任何情况下都能提升推理能力。

对于预训练中已充分掌握的简单任务,RL 只能提升 pass@1(即减少失误),无法提升模型的上限(pass@128)。

真正的能力跃迁发生在模型「能力边缘」的任务上(例如预训练覆盖了 op=2-10,RL 针对 op=11-14)。在这一区间,RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大(op=15-20),超出了模型的探索范围,RL 的收益也会消失。

因此,RL 的训练数据必须经过精心校准,瞄准模型的「能力边缘」,既不能太简单也不能太难。



不同难度任务下的 RL 表现

泛化的种子:1% 的预训练暴露至关重要

在考察模型能否将推理能力迁移到全新语境时,研究发现,如果预训练中完全没有接触过某种长尾语境(0%),即便 RL 阶段大量训练,模型也无法实现有效迁移。



因此,RL 无法无中生有,它需要预训练提供最基础的「原语」作为抓手。



预训练数据混合比例对情境泛化的影响

中期训练是计算效率的关键杠杆

在固定的计算预算(Compute Budget)下,如何分配中期训练和 RL 的比例?

Mid-Training + RL > Pure RL:引入中期训练阶段比单纯增加 RL 步数效果更好。

分配策略:实验表明,对于极难任务(OOD-Hard),「少量中期训练(建立先验)+ 大量 RL(深度探索)」的组合是最佳策略;而对于中等难度任务,增加中期训练的比重能带来更稳定的 pass@1 表现。

中期训练起到了「分布桥梁」的作用,极大地提升了 RL 的样本效率和最终性能上限。



不同算力分配策略下的性能对比

过程奖励抑制投机取巧

针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误,研究引入了过程监督。

实验数据表明,将稀疏的结果奖励与密集的过程奖励相结合,能显著减少结构性错误(如遗漏步骤或依赖关系错误)。这种混合奖励机制在长链条推理任务($op=15text{-}20$)中带来了稳定的 pass@1 提升。

过程级信号能够规范 RL 的搜索方向,确保能力的提升是建立在忠实推理基础之上的。



不同奖励机制的效果对比

结语

这项工作通过解构训练流程,给出了明确的实践指导:

RL 数据设计:应针对模型的「能力边缘」构建数据集,不要浪费算力在过易或过难的任务上。

预训练策略:必须确保长尾领域的原子能力(Primitives)有至少 1% 的覆盖率,为 RL 留出接口。

算力分配:根据目标任务的难度,动态调整中期训练与 RL 的比例。攻克难题需要更多 RL,提升稳定性需要更多中期训练。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。