机器之心报道
编辑:Panda
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)
通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。
然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。
因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供的反馈信号中进行推理、验证和学习。
近日,微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。
而他们的探索成果便是rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型rStar2-Agent-14B—— 该模型达到前沿级别的性能,媲美甚至超越了 671B 的 DeepSeek-R1!
这项研究在社交网络上获得了广泛关注。
下面我们就来简单了解一下微软是如何造出了这个能以小搏大的模型。
论文标题:rStar2-Agent: Agentic Reasoning Technical Report论文地址:https://arxiv.org/pdf/2508.20722代码地址:https://github.com/microsoft/rStar
环境与问题描述
本研究使用的环境是 Python 编程工具和解释器。
Python 编程工具可拓宽模型的行动空间,使其能够探索替代方案并验证中间步骤,从而在单靠较长的 CoT 不足的情况下补充内部的自我反思。
然而,在该环境中有效地扩展主动式强化学习非常困难。
首先,编程工具和 Python 解释器的固有复杂性会将环境噪声引入推理过程。当模型不可避免地生成语法或逻辑上错误的代码时,由此产生的环境反馈(例如,错误消息)可能会导致模型浪费宝贵的 token 来纠正错误,而不是推进推理。遗憾的是,当前的强化学习方法主要依赖于「仅结果奖励」,而这只会加剧这个问题,因为即使中间工具调用失败的轨迹仍然会获得正奖励,只要最终答案正确即可。如此一来,该模型就会将错误视为可接受的,并生成冗长且低质量的推理轨迹。
其次,大规模主动式强化学习训练对基础设施的要求很高。单个训练批次可以触发数万个并发工具调用,这使得构建可靠且响应迅速的代码执行环境变得极具挑战性。
此外,与环境交互的智能体部署会放大标准强化学习系统中部署效率低下的现象,从而显著减慢整体训练速度。
rStar2-Agent 三大创新
微软提出的 rStar2-Agent 包含三大关键创新。
第一,该团队为大规模主动式强化学习构建了一个高效可靠的基础架构
他们构建了一个高吞吐量、独立的代码环境,能够处理 45K 个并发工具调用,平均执行反馈仅需 0.3 秒即可返回。
为了解决强化学习 rollout 效率低下的问题,他们引入了一个负载均衡的 rollout 调度程序,该调度程序会根据 GPU 上可用的键值缓存容量动态分配 rollout 请求,从而最大限度地提高计算利用率。
即使在 GPU 资源有限的情况下,该基础架构也能实现高效的强化学习训练。使用 64 块 MI300X GPU,该团队仅用一周时间就完成了 rStar2-Agent-14B 的训练。
第二,为了在代码环境中实现有效的主动式强化学习,该团队提出了基于正确重采样的组相对策略优化 (GRPO-RoC),它将 GRPO 与基于正确重采样 (RoC) 的 rollout 策略相结合,以解决稀疏且仅关注结果的奖励条件下环境引起的噪声。
具体而言,RoC 首先对较大的 rollout 组进行过采样,然后下采样至标准批次大小。正向轨迹经过筛选,仅保留质量最高且工具导致错误或格式问题最少的轨迹,而负向轨迹则进行均匀下采样。
这种简单而有效的非对称采样方法将各种故障模式保留为信息丰富的负向信号,同时强调更高质量的成功案例以进行正向监督。
相比于在奖励函数中明确惩罚工具使用错误的方法,GRPO-RoC 可提高训练稳定性,并可避免 reward-hacking 的风险。
通过学习更清洁、更高质量的正向轨迹,该模型不仅能提升 Python 编程工具的使用率,还展现出高级认知能力,能够在真实的代码环境交互下更高效、更简洁地进行推理。
第三,该团队还提出了一套训练方案,能以最少的计算量将一个 14B 预训练基础模型提升到前沿数学推理水平。
不同于先前的研究(在强化学习之前应用推理密集型 SFT ),该团队从非推理 SFT 阶段开始 —— 仅用于灌输一般的指令遵循、编程工具使用和格式,而不增强推理能力。这可避免潜在的 SFT 过拟合,并保持初始平均响应较短,从而使强化学习能够更有效地培养推理能力,同时充分利用模型的预训练能力。
然后,该团队使用 GRPO-RoC 进行多阶段强化学习训练,逐渐增加任务难度和最大训练时长。不同于之前的强化学习方法,这些方法需要将 rollout 规模大幅扩展至 16K→48K 甚至更高,该团队将每个阶段的长度限制在较短的范围内(8K→12K)。这可显著降低强化学习成本,同时鼓励更高效的推理策略。
该模型仅需510个强化学习步骤,即可快速实现前沿水平的数学推理,展现出强大的能力和卓越的训练效率。
结果很惊艳
最终,使用新方法,他们训练得到了一个模型并将其命名为 rStar2-Agent-14B。它只有 14B 大小,但却实现了超越 DeepSeek-R1 和 Kimi k1.5 等领先推理模型的强大数学推理性能。
值得注意的是,在 AIME24 上,它的准确度达到了80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分别高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分别达到了 69.8% 和 52.7%,展现了稳定一致的强大能力。
除了数学之外,尽管这里只使用数学的主动式强化学习进行训练,它仍然能够有效地泛化。
它在 GPQA-Diamond 科学推理基准上的表现优于 DeepSeek-V3,在 BFCL v3 的智能体工具使用任务上也表现不错,并在 IFeval 和 Arena-Hard 等通用基准测试中取得了具有竞争力的结果。
该团队还报告了未成功的尝试和分析,并重点介绍了由 rStar2-Agent 主动式强化学习带来的对更高级认知推理行为的发现,例如驱动更有效推理的环境反馈反思 token。
更多分析和消融研究请见原论文。