当前位置: 首页 » 资讯 » 新科技 » 正文

阿里通义推出新型强化学习方法 SAPO,让大语言模型更稳更强

IP属地 中国·北京 编辑:柳晴雪 Chinaz 时间:2025-12-10 18:26:29

在大语言模型(LLM)发展的浪潮中,阿里通义 Qwen 团队近日推出了一种创新的强化学习方法 ——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心目标是解决当前大语言模型在强化学习中面临的策略优化不稳定性问题。

传统的强化学习方法,如 GRPO 和 GSPO,采用硬剪切技术来控制重要性比率的范围,确保更新过程中的稳定性。然而,这种方式有其固有的缺陷。首先,过于严格的剪切往往导致有效学习信号的丢失,尤其是在 GSPO 中,一旦某些 token 表现不佳,整个序列的梯度可能会被舍弃。其次,调整剪切范围非常棘手:若范围过小,许多样本可能无法贡献梯度;若范围过大,则会引入噪声,反而损害学习的稳定性。这些问题在大规模混合专家模型(MoE)中尤为显著。

针对这些挑战,Qwen 团队提出了 SAPO,这是一种新型的强化学习方法,旨在提升大语言模型的学习稳定性和性能。SAPO 采用了一种平滑的、温度控制的门控函数来替代传统的硬剪切,从而在保持稳定性的同时,保留更多的有效梯度。其独特设计包括:

1. 连续信任域 :避免了硬剪切带来的不连续性问题。

2. 序列级一致性 :确保不丢弃整段序列,保留更多的信息。

3. token 级自适应性 :减弱异常 token 对整体学习的影响。

此外,SAPO 在处理正负 token 时采用非对称的温度设计,使其对不同类型的 token 进行差异化处理,这进一步增强了学习的效果。经过实验证明,SAPO 在多个规模的 dense 和 MoE 模型上均展现出显著的提升。

为验证这一新方法的有效性,Qwen 团队对其进行了全面评估。在数学推理、代码生成、逻辑推理和多模态数学推理等任务上,SAPO 的表现明显优于传统方法 GRPO 和 GSPO。这一突破不仅标志着阿里通义在大语言模型领域的技术创新,也为未来的 AI 研究开辟了新的方向。

论文地址:https://arxiv.org/abs/2511.20347

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。