当前位置: 首页 » 资讯 » 新科技 » 正文

奖励模型也能Scaling!上海AI Lab突破强化学习短板

IP属地 中国·北京 编辑:杨凌霄 量子位 时间:2025-07-11 12:22:53

允中 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。

然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

当前,大模型在Next Token PredictionTest-time Scaling两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的短板。

如何解决?



现在,来自上海人工智能实验室的研究团队提出了一种新的思路:

他们找到了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式——策略判别学习(Policy Discriminative Learning, POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。

POLAR为大模型后训练带来突破性进展,并有望打通RL链路扩展的最后一环。

什么是POLAR

先来看一下POLAR能做到什么。

与传统的奖励模型不同,POLAR是根据参考答案为模型的输出打分。这意味着POLAR可以灵活地基于不同场景的参考答案给出不同的奖励分数,轻松适配多样的定制化需求。

下面是一个开放问题的例子,对应有三个不同风格的回复:

问题:彩虹是怎么形成的?

回答一:彩虹是阳光经过水滴折射和反射后形成的。

回答二:当阳光照射到空气中的小水滴时,光线会进入水滴发生折射,再从水滴的内壁反射后再次折射出水滴。由于不同波长的光折射角度不同,最终呈现出不同的颜色,这些颜色组合起来就形成了我们所看到的彩虹。

回答三:彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹,有时候还会看到双彩虹甚至三重彩虹呢!不过很可惜,彩虹本身只是光学现象,没法真正走近摸到。

对于这种开放问题,不同的用户可能会偏向不同风格的回复。此时,传统奖励模型的“绝对偏好”无法灵活应对不同的定制化场景。而POLAR只需要根据不同的参考回,即可为三种回答给出不同的偏序关系,无需重新训练奖励模型

来看POLAR实际打分的例子。如果给定的参考风格是简短扼要,POLAR会给第一个回答最高的分数。

参考一:阳光穿过水滴的折射与反射形成了彩虹。

回答一:-2.095703125

回答二:-5.859375

回答三:-7.44921875

如果参考的是详细分析风格,POLAR会给第二个回答最高分。

参考二:彩虹是阳光经过空气中的许多小水滴后,通过连续的折射与反射而产生的。当阳光进入水滴时,光线首先被折射进入水滴内部,然后在水滴内壁发生一次反射,随后再次折射射出水滴。因为阳光中不同颜色的光线波长各不相同,折射时产生的角度也略有差别,这使得光线被分解成红、橙、黄、绿、蓝、靛、紫等颜色,从而形成了我们所看到的绚丽彩虹。

回答一:-8.5625

回答二:-5.2421875

回答三:-8.125

如果参考的是俏皮发散风格,此时第三个回答的奖励分数最高。

参考三:彩虹是阳光经过水滴折射和反射后形成的。在日常生活中,只要条件合适,比如刚下完雨、喷泉边,甚至在水幕电影附近,都能邂逅这种美丽的景象。不过呢,虽然彩虹看上去很近,但它毕竟只是光的奇妙游戏,我们无论怎么追逐,都无法真正触碰到它,这也是大自然给我们留下的小小遗憾吧~

回答一:-9.53125

回答二:-8.609375

回答三:-4.484375

除了上述处理开放问题的灵活性,POLAR也能解决有标准答案的闭式问题。相比“基于规则的验证”(RLVR)所提供的0/1二元奖励,POLAR可以提供更加细粒度的偏好区分。

下面是一个例子:

问题:公交车上原本有10名乘客,到站后下去了3名,上来了5名,现在车上有多少名乘客?

参考答案: 10名乘客 - 3名下车 + 5名上车。答案是12。

回答一(答案正确,思路正确):最初有10名乘客,到站后3个人下车,因此剩下7人;又新上来了5人,7人加上5人,总共是12人。因此最终有12名乘客。

分数:-5.1953125

回答二(答案正确,无思路):现在车上有12名乘客。

分数:-5.6171875

回答三(答案错误,思路正确):10名乘客 - 3名下车 + 5名上车。答案是13。

分数:-8.953125

回答四(答案正确,思路错误):10名乘客 + 3名下车 - 5名上车。答案是12。

分数:-9.5859375

回答五(答案错误,无思路):现在车上有13名乘客。

分数:-11.0703125

回答六(答案错误,思路错误):10名乘客 + 3名下车 - 5名上车。答案是13。

分数:-12.125

由此可见,POLAR不仅摆脱了传统奖励模型“绝对偏好”的限制,更加弥补了RLVR难以拓展场景、奖励信号稀疏等问题。

POLAR基于参考答案对模型输出进行打分,对更加接近参考答案的输出赋予更高的奖励值,在强化学习过程中让训练策略逐步向最优策略偏移。

这种特性使得POLAR完美契合强化微调框架(Reinforcement Fine-tuning,RFT),让RFT在通用场景的应用成为可能。

POLAR是如何训练的

在探讨POLAR的训练方式之前,我们首先回顾一下大语言模型(LLM)的成功之路。

传统的机器学习是为特定的任务训练特定的模型,例如为翻译任务训练翻译模型,很难做到任务间的泛化。

LLM的成功就在于用Next Token Prediction的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。

现在奖励模型(RM)的设计仍然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的RM。

其中,RM的打分标准是基于人类偏好来设定的,而打分标准就如同LLM的任务形式,具有多样性且无法穷举。

那么,能不能仿照LLM的成功之路,重新设计RM的训练范式,就像消除LLM的“任务形式”一样,找到一个脱离于“打分标准”之外的更本质的优化目标函数来进行预训练呢?

正是基于这样的思路,上海AI Lab提出了预训练奖励模型POLAR



△POLAR的两阶段训练(预训练和偏好微调)以及在RFT中的使用方法

与传统的基于“绝对偏好”的奖励建模方式不同,POLAR 通过衡量训练策略与目标策略之间的“距离”来作为奖励信号。当训练策略越接近目标策略时,POLAR 就给予越高的奖励。

具体来说,POLAR 使用了一种对比学习(Contrastive Learning)的方式学会策略分布的距离度量:同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例

通过这种方式构造正负样本,虽然有一些反直觉,但它是一种真正无偏的信号,和对抗生成网络(GAN)中判断是否是真实样本类似。

由于“距离”是一种相对性的概念,因此目标策略可任意指定,从而摆脱了对偏好数据人工标注的依赖,具有极强的可扩展潜力。实际上,POLAR的预训练语料完全通过自动化合成数据构建

具体而言,研究人员从LLM预训练语料中采样出大量的文本前缀,并从策略模型池(由开源的131个base LLM和53个Chat LLM组成)中随机取模型进行轨迹采样。预训练目标使用Bradley-Terry Loss:



其中,A1和A2代表相同策略模型生成的轨迹(正样本对);B1代表不同策略模型生成的轨迹(负样本)。

由于“距离”具有相对性,这里的A和B两个策略模型可以任意选取。例如,A1和A2可以由Qwen 1.5B采样得到,B1可以由Qwen 72B采样得到。通过这种方式,POLAR的预训练语料非常容易扩展。

POLAR使RM学会为相近策略产生的轨迹赋予更高奖励,从而隐式建模策略分布的差异和距离。在这一阶段,POLAR-1.8B共使用了0.94T Token的预训练数据,POLAR-7B共使用了3.6T Token的预训练数据。

在预训练阶段之后,POLAR可以使用少量的偏好数据对齐人类偏好。具体来说,对于同一个prompt,采样三条轨迹,由人工标注偏好顺序。同样使用Bradley-Terry Loss进行微调:



其中,A > B > C,分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种“策略差异”,例如A可以视为从最佳策略分布中采样得到,而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。

POLAR具有Scaling效应吗?



△POLAR的Scaling Laws

一个重要的问题是,POLAR预训练范式是否真的能展现Scaling效应?

研究人员从模型参数N和计算量C两个方面进行了实验。

如图所示,POLAR的验证集损失随模型参数N的增加呈幂律关系下降,拟合的R2值为0.9886。

验证集损失也随最优训练计算量C的增加呈幂律关系下降,拟合的R2值为0.9912。

这些结果表明,分配更多的计算资源将持续带来更好的POLAR性能。也就是说,新范式展现出了与大语言模型Next Token Prediction目标类似的Scaling Laws。

这体现了POLAR预训练方法的显著扩展优势,以及用于构建更通用和更强大的奖励模型的巨大潜力。

POLAR效果如何?

研究人员通过一系列实验证明,POLAR能做到对性能和泛化的双重保证。



△偏好评估实验结果

在偏好评估方面,POLAR展现出优越的性能和全面性,在大多数任务维度上优于SOTA奖励模型。

例如,在STEM任务中,POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。

值得注意的是,POLAR-1.8B仅有1.8B参数,就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback(参数量分别为其15倍和40倍)相当的结果,凸显了POLAR的强大潜力。



△强化微调实验结果

在强化微调实验中,POLAR持续优于SOTA的开源奖励模型。

例如,使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中,相对于初始结果平均提升了9.0%,相对于WorldPM-72B-UltraFeedback优化的结果提升了6.7%。

POLAR能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际RL应用时的奖励信号泛化性。

实验结果表明,尽管POLAR-1.8B和POLAR-7B在偏好评估中表现相似,但在下游RL实验中,POLAR-7B展现出了显著优势。从1.8B到7B的效果提升,进一步说明了POLAR所具有的Scaling效应。

总结来说,POLAR在预训练阶段通过对比学习建模策略间的距离,仅需少量偏好样本就可对齐人类偏好。在使用阶段,POLAR利用RFT范式对LLM进行强化学习,展现出了极佳的泛化性。POLAR作为一种全新的、可扩展的奖励模型预训练方法,为LLM后训练带来了新的可能,让通用RFT多了一种有效实践方案。有望打通RL链路Scaling的最后一环。

论文链接:https://arxiv.org/pdf/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B

— 完 —

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。