当前位置：首页 » 资讯 » 新科技 » 正文

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

IP属地中国·北京 编辑：赵云飞 Chinaz 时间：2025-07-16 12:26:44

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。
实验结果显示，采用POLARIS训练的40亿参数开源模型Qwen3-4B，在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率，性能超越部分更大规模的闭源模型。尤为突出的是，POLARIS-4B模型的轻量化设计，使其能够在消费级显卡上轻松部署，大大降低了应用门槛。
POLARIS的核心创新在于其训练策略。研究团队发现，通过围绕待训练模型定制训练数据和超参数设置，可以显著提升小模型的数学推理能力。具体实践中，团队动态调整了训练数据的难度分布，构建了轻微偏向难题的数据集，以避免样本难度过于集中。同时，引入数据动态更新策略，根据模型在训练过程中的表现实时剔除过易样本，确保训练的有效性。
在采样控制方面，POLARIS通过精细调控采样温度，平衡了模型性能与生成路径的多样性。研究发现，采样温度对模型性能和路径多样性具有显著影响，过高或过低的温度均不利于模型训练。因此，团队提出了控制探索区的温度初始化方法，并在训练过程中动态调整采样温度，以保持生成内容的多样性。
针对长上下文训练的挑战，POLARIS引入了长度外推技术，通过位置编码RoPE的调整，使模型能够处理超出训练时所见的更长序列。这一创新策略有效补偿了长文本训练中的不足，提升了模型在长文本生成任务上的性能。
此外，POLARIS还采用了多阶段RL训练方法，早期使用较短的上下文窗口进行训练，待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务，提升了训练的稳定性和效果。
目前，POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。研究团队在多个主流推理评测集上验证了POLARIS的有效性，结果显示，不同规模的模型以及不同的模型家族在应用POLARIS训练方法后，模型效果均有显著提升。
GitHub 主页:
https://github.com/ChenxinAn-fdu/POLARIS
Hugging Face 主页:
https://huggingface.co/POLARIS-Project

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里辟谣：千问模型团队集体离职系谣言

OpenClaw机器人引爆天网！首次拥有世界记忆，天网在GitHub「开源」了

OpenAI深夜祭出GPT-5.4，暴击Claude！原生操控电脑，打工人悬了

OpenAI GPT-5.4发布：编码超越前代，知识工作接近人类专家水平

具身智能训练场二期、三期将加快落地

OpenAI最强模型GPT-5.4重磅发布首次支持原生操控电脑超越人类

全站最新

阿里辟谣：千问模型团队集体离职系谣言

OpenClaw机器人引爆天网！首次拥有世界记忆，天网在GitHub「开源」了

OpenAI深夜祭出GPT-5.4，暴击Claude！原生操控电脑，打工人悬了

OpenAI GPT-5.4发布：编码超越前代，知识工作接近人类专家水平

热门推荐

全国人大代表、中国工程院院士肖伟：将工业智能大模型融入中药生产全链条

阿里辟谣：千问模型团队集体离职系谣言

日本火箭发射再遭失败

AI数据中心扩张成本激增，甲骨文计划裁员数千人减少开支

新加坡媒体：中国AI视频，从“追赶”到“领跑”

OpenClaw机器人引爆天网！首次拥有世界记忆，天网在GitHub「开源」了

OpenAI深夜祭出GPT-5.4，暴击Claude！原生操控电脑，打工人悬了

OpenAI GPT-5.4发布：编码超越前代，知识工作接近人类专家水平

具身智能训练场二期、三期将加快落地

OpenAI最强模型GPT-5.4重磅发布首次支持原生操控电脑超越人类

视频丨国产“飞的”扎堆亮相看懂未来产业说明书

《环球时报》专访全国人大代表、本源量子首席科学家郭国平：“量子计算+大模型”将深度融合

《环球时报》采访全国政协委员、360集团创始人周鸿祎：智能体或改变网络安全格局

圆形外屏小折叠设计，三星全新专利曝光

京东2025年营收增长13%、Q4新业务减亏，许冉：今年外卖投入较去年降低