当前位置：首页 » 资讯 » 新科技 » 正文

阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升

IP属地中国·北京 编辑：赵云飞 Chinaz 时间：2026-04-07 19:20:51

阿里通义实验室的 Qwen Pilot 团队近日推出了一种全新的算法 FIPO（Future-KL Influenced Policy Optimization），该算法旨在突破当前大模型在推理过程中面临的瓶颈问题。传统的强化学习方法(RLVR)在处理推理链中的每个 Token 时，往往无法区分出哪些 Token 对最终结果至关重要。因此，如何精准识别关键 Token 成为了一个亟待解决的难题。
FIPO 算法引入了 Future-KL 机制，专门奖励那些对后续推理有显著影响的 Token，从而解决了在纯 RL 训练中 “推理长度停滞” 的问题。在实际测试中，FIPO 在32B 规模的纯 RL 设置下，表现超越了 o1-mini 和 DeepSeek-Zero-MATH 等同规模的模型。
根据团队的研究结果，大多数 Token 在训练前后几乎没有变化，显示出强化学习的影响是极度稀疏的。团队发现，行业常用的评估指标如熵和 KL 散度，难以精准识别关键 Token 的变化。因此，他们引入了新的观察维度 —— 符号对数概率差（Δlog p），有效捕捉到优化的方向性。
在实验中，FIPO 算法在零基础模型 Qwen2.5-32B-base 上进行测试，突破了推理长度的瓶颈，平均推理长度提升至10，000Token 以上。同时，该算法还实现了推理准确率的显著提升，证明了其在复杂数学推理中的潜力。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

专题

阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

​阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升

同类资讯

阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升