当前位置: 首页 » 资讯 » 新科技 » 正文

NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖

IP属地 中国·北京 编辑:柳晴雪 Chinaz 时间:2025-11-28 18:24:25

全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。本届大会共收稿 2 万篇,录取率仅 25%,竞争强度创历史新高。

论文核心是一把“滑动门”:在标准注意力后加一层可学习的门控,实时决定哪些头、哪些 token 继续参与下游计算。实验显示,1.7 B 稠密模型与 15 B MoE 模型在 3.5 T tokens 上训练,**参数只增 1 %,困惑度降 0.2,MMLU 涨 2 分**,Pile 各子域均取得一致提升。团队解释,门控相当于给注意力做“安检”,无效信息被拦在 FFN 之前,计算效率与鲁棒性同步提高。

该机制已装进即将发布的 Qwen3-Next,阿里同时把代码与 1.7 B 实验模型开源至 GitHub,供社区二次验证。通义千问表示,下一步将把门控思路扩展到多模态与长文本,让“会自己过滤的注意力”成为下一代大模型的标准组件。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新