当前位置：首页 » 资讯 » 新科技 » 正文

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

IP属地中国·北京 机器之心Pro 时间：2025-12-15 12:21:44

机器之心报道
机器之心编辑部
近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。
然而，后训练究竟是真正扩展了模型的推理能力，还是仅仅挖掘了预训练中已有的潜力？目前尚不明确。
一个核心挑战在于现代训练流程缺乏可控性：大规模预训练语料库不够透明，中期训练往往缺乏充分研究，且 RL 目标函数与未知的先验知识之间存在复杂的交互作用。
为了回答这个问题，来自卡耐基梅隆大学（CMU）的研究者通过构建基于 GSM-Infinite 的可控合成数据框架，在完全解耦的环境下，定量分析了预训练、Mid-training（中期训练/CPT）和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因果贡献。

https://x.com/xiangyue96/status/1998488030836044112
研究者从两个维度对模型进行评估：针对更复杂组合的外推泛化能力，以及跨越不同表层语境的情境泛化能力。利用该框架，研究者调和了关于 RL 有效性的不同观点。
研究表明：
仅当预训练留有足够提升空间，且 RL 数据针对模型的能力边界（即那些虽具难度但尚未超出模型能力范围的任务）时，RL 才能带来真正的能力增益（pass@128）。情境泛化需要极少但充分的预训练接触，在此之后 RL 便能实现可靠的迁移。在固定计算量下，相比于仅使用 RL，中期训练能显著提升性能，证明了其在训练流程中处于核心地位却未被充分探索。过程级奖励能减少奖励破解（Reward Hacking）现象并提高推理的忠实度。

论文标题：On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models论文地址：https://arxiv.org/abs/2512.07783Github：https://github.com/Interplay-LM-Reasoning/Interplay-LM-ReasoningHuggingFace：https://huggingface.co/Interplay-LM-Reasoning
综上所述，这些结果阐明了预训练、中期训练和 RL 之间的相互作用，为理解和改进推理语言模型的训练策略奠定了基础。
该工作登上了 Alphaxiv 榜一。

同时该工作在 AI 社区收获了一大波好评，ViT 作者之一 Lucas Beyer 也现身评论区。

核心方法：
完全可控的实验沙盒
为了从因果层面解构大模型的推理能力来源，研究团队并未直接使用现有的黑盒大模型或不可知的互联网语料，而是设计了一套严密的可控合成数据框架。该框架基于 GSM-Infinite 生成技术，旨在从源头控制数据分布、推理深度与语境广度。

数据生成框架与任务设置概览
基于依赖图（DAG）的数据生成
该框架的核心理念是将「推理结构」与「表面语境」完全解耦。

语境渲染：在确定了推理骨架后，系统通过应用不同的「语境模板」（如动物园、学校等场景），将抽象的数学图渲染为自然语言问题。这种分离使得研究者能够考察模型是真正学会了推理逻辑，还是仅仅记住了特定的文本模式。
三阶段训练流程的严格隔离
为了避免数据污染导致的评估偏差，研究者定义了三个互不重叠的训练阶段，并在各阶段精确调配数据分布：
预训练：使用 10B token 的数据，主要包含基础的推理原语（Primitives）和规则。重点在于让模型掌握基础能力（op=2-10），同时保留更深层任务作为未见过的测试集。中期训练：这是一个连接预训练与 RL 的「桥梁」阶段。它使用与 RL 阶段相似的数据分布（即模型能力边缘的数据），旨在对齐模型的内部表征，使其做好「RL 就绪（RL-ready）」的准备。后训练（Post-training / RL）：采用 GRPO 算法，针对特定的任务难度和语境进行强化学习，以探索模型在特定奖励信号下的能力边界。
过程级验证评估
为了防止模型「猜对答案」或通过错误的推理路径得出正确结果（即 Reward Hacking），该研究引入了过程级验证。系统不仅检查最终答案，还会解析模型生成的思维链，将其还原为依赖图，并与真实的一步步推理过程（Ground Truth DAG）进行比对。只有当推理步骤和最终答案全对时，才被判定为通过。
解构能力涌现的四个关键发现
基于上述框架，研究者进行了一系列控制变量实验，得出了关于 RL、预训练和中期训练相互作用的四个关键结论，有力地调和了学术界关于「RL 是否能创造新能力」的争议。
RL 的效用取决于「能力边缘」
RL 并非在任何情况下都能提升推理能力。
对于预训练中已充分掌握的简单任务，RL 只能提升 pass@1（即减少失误），无法提升模型的上限（pass@128）。
真正的能力跃迁发生在模型「能力边缘」的任务上（例如预训练覆盖了 op=2-10，RL 针对 op=11-14）。在这一区间，RL 能够通过探索带来显著的外推性泛化增益。如果任务难度过大（op=15-20），超出了模型的探索范围，RL 的收益也会消失。
因此，RL 的训练数据必须经过精心校准，瞄准模型的「能力边缘」，既不能太简单也不能太难。

不同难度任务下的 RL 表现
泛化的种子：1% 的预训练暴露至关重要
在考察模型能否将推理能力迁移到全新语境时，研究发现，如果预训练中完全没有接触过某种长尾语境（0%），即便 RL 阶段大量训练，模型也无法实现有效迁移。

因此，RL 无法无中生有，它需要预训练提供最基础的「原语」作为抓手。

预训练数据混合比例对情境泛化的影响
中期训练是计算效率的关键杠杆
在固定的计算预算（Compute Budget）下，如何分配中期训练和 RL 的比例？
Mid-Training + RL > Pure RL：引入中期训练阶段比单纯增加 RL 步数效果更好。
分配策略：实验表明，对于极难任务（OOD-Hard），「少量中期训练（建立先验）+ 大量 RL（深度探索）」的组合是最佳策略；而对于中等难度任务，增加中期训练的比重能带来更稳定的 pass@1 表现。
中期训练起到了「分布桥梁」的作用，极大地提升了 RL 的样本效率和最终性能上限。

不同算力分配策略下的性能对比
过程奖励抑制投机取巧
针对 RL 常见的奖励破解问题——即模型利用捷径获取高分但推理逻辑错误，研究引入了过程监督。
实验数据表明，将稀疏的结果奖励与密集的过程奖励相结合，能显著减少结构性错误（如遗漏步骤或依赖关系错误）。这种混合奖励机制在长链条推理任务（$op=15text{-}20$）中带来了稳定的 pass@1 提升。
过程级信号能够规范 RL 的搜索方向，确保能力的提升是建立在忠实推理基础之上的。

不同奖励机制的效果对比
结语
这项工作通过解构训练流程，给出了明确的实践指导：
RL 数据设计：应针对模型的「能力边缘」构建数据集，不要浪费算力在过易或过难的任务上。
预训练策略：必须确保长尾领域的原子能力（Primitives）有至少 1% 的覆盖率，为 RL 留出接口。
算力分配：根据目标任务的难度，动态调整中期训练与 RL 的比例。攻克难题需要更多 RL，提升稳定性需要更多中期训练。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

视频丨空间站的年夜饭都有什么？听航天员报菜名收祝福

消息称smart精灵#6 EHD超级电混车型将于今年中旬上市

存储涨价的“后遗症”来了

“中国”又在海外火出圈：“成为中国人”还不过瘾，要“最中国”才够味

豆包暂停视频通话功能

有望告别天价检测！AI生成虚拟癌症人群，预测生存期、癌症分型

全站最新

视频丨空间站的年夜饭都有什么？听航天员报菜名收祝福

消息称smart精灵#6 EHD超级电混车型将于今年中旬上市

存储涨价的“后遗症”来了

“中国”又在海外火出圈：“成为中国人”还不过瘾，要“最中国”才够味

热门推荐

视频丨空间站的年夜饭都有什么？听航天员报菜名收祝福

消息称smart精灵#6 EHD超级电混车型将于今年中旬上市

存储涨价的“后遗症”来了

“中国”又在海外火出圈：“成为中国人”还不过瘾，要“最中国”才够味

豆包暂停视频通话功能

有望告别天价检测！AI生成虚拟癌症人群，预测生存期、癌症分型

安克推出20W国际旅行转换器/充电头：1AC+2C+2A，189元

奔驰全新GLA谍照曝光：剑指宝马iX1，纯电混动都会有

OpenClaw创始人加入OpenAI，火爆小龙虾项目以基金会形式独立运营

微信可以发金色朋友圈了

“新春人数较多”，字节跳动豆包App暂停通话功能

比亚迪全新品牌领汇首款车型e9官图公布，面向出行市场

阿里发布千问3.5，性能媲美Gemini 3， Token价格仅为其1/18

安克声阔soundcore C50i耳夹式耳机国行上市，399元

阿里正式发布新一代基模千问3.5