当前位置: 首页 » 资讯 » 新科技 » 正文

​阿里通义实验室推出 FIPO 算法,助力大模型推理能力大幅提升

IP属地 中国·北京 编辑:赵云飞 Chinaz 时间:2026-04-07 19:20:51

阿里通义实验室的 Qwen Pilot 团队近日推出了一种全新的算法 FIPO(Future-KL Influenced Policy Optimization),该算法旨在突破当前大模型在推理过程中面临的瓶颈问题。传统的强化学习方法(RLVR)在处理推理链中的每个 Token 时,往往无法区分出哪些 Token 对最终结果至关重要。因此,如何精准识别关键 Token 成为了一个亟待解决的难题。

FIPO 算法引入了 Future-KL 机制,专门奖励那些对后续推理有显著影响的 Token,从而解决了在纯 RL 训练中 “推理长度停滞” 的问题。在实际测试中,FIPO 在32B 规模的纯 RL 设置下,表现超越了 o1-mini 和 DeepSeek-Zero-MATH 等同规模的模型。

根据团队的研究结果,大多数 Token 在训练前后几乎没有变化,显示出强化学习的影响是极度稀疏的。团队发现,行业常用的评估指标如熵和 KL 散度,难以精准识别关键 Token 的变化。因此,他们引入了新的观察维度 —— 符号对数概率差(Δlog p),有效捕捉到优化的方向性。

在实验中,FIPO 算法在零基础模型 Qwen2.5-32B-base 上进行测试,突破了推理长度的瓶颈,平均推理长度提升至10,000Token 以上。同时,该算法还实现了推理准确率的显著提升,证明了其在复杂数学推理中的潜力。

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新