当前位置: 首页 » 资讯 » 新科技 » 正文

蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K,混合注意力+MoE架构重塑长文本编程效率

IP属地 中国·北京 编辑:杨凌霄 Chinaz 时间:2025-10-28 18:20:51

在AI大模型竞争白热化的当下,高效推理与长上下文处理已成为开发者痛点。近日,蚂蚁集团旗下百灵大模型团队正式开源Ring-flash-linear-2.0-128K,一款专为超长文本编程设计的创新模型。该模型以混合线性注意力机制和稀疏MoE架构为核心,激活仅6.1B参数即媲美40B密集模型,在代码生成、智能代理等领域实现SOTA(最优)表现。AIbase基于Hugging Face官方发布与技术报告独家解析其突破性亮点,助力开发者拥抱“高效AI编程”新时代。

创新架构:线性+标准注意力混合,MoE优化平衡性能与效率

Ring-flash-linear-2.0-128K基于Ling-flash-base-2.0迭代升级,总参数规模达104B,但通过1/32专家激活比率和多任务处理层(MTP)等优化,仅激活6.1B参数(非嵌入4.8B),实现近线性时间复杂度和常量空间复杂度。核心亮点在于混合注意力机制:主干采用自研线性注意力融合模块,辅以少量标准注意力,专为长序列计算提效。相比传统模型,该架构在H20硬件上支持128K上下文下200+ token/s生成速度,日常使用提速3倍以上,完美适配资源受限场景。

训练升级:1T令牌额外微调+RL稳定,复杂推理能力跃升SOTA

模型从Ling-flash-base-2.0转换而来,进一步在额外1T令牌高质量数据集上训练,结合稳定监督微调(SFT)和多阶段强化学习(RL),攻克MoE长链推理训练不稳定难题。得益于蚂蚁自研“棒冰(icepop)”算法,该模型在高难度任务中展现卓越稳定性:在AIME2025数学竞赛获86.98高分,CodeForces编程Elo达90.23,逻辑推理与创意写作v3均超40B以下密集模型(如Qwen3-32B)。基准测试显示,它不仅匹敌标准注意力模型(如Ring-flash-2.0),还在多项开源MoE/Dense模型中拔得头筹。

长上下文黑科技:原生128K+YaRN扩展至512K,长输入输出零卡顿

针对编程痛点,Ring-flash-linear-2.0-128K原生支持128K上下文窗口,开发者可通过YaRN外推技术轻松扩展至512K。在长形式输入/输出场景中,预填充(Prefill)阶段吞吐量较Qwen3-32B提升近5倍,解码(Decode)阶段达10倍加速。实测显示,在32K+上下文编程任务中,模型保持高精确度,无“穿模”或漂浮感问题,特别适用于前端开发、结构化代码生成和代理模拟等复杂场景。

开源即用:Hugging Face+ModelScope双平台部署,零门槛上手指南

为加速社区落地,百灵团队已将模型权重同步开源至Hugging Face与ModelScope,支持BF16/FP8格式。安装依赖后,即可通过Transformers、SGLang或vLLM框架一键加载:

- Hugging Face示例:pip install flash-linear-attention==0.3.2transformers==4.56.1,加载后直接generate长代码提示。

- vLLM在线推理:tensor-parallel-size4下,GPU利用率90%,支持API调用。

技术报告详见arXiv(https://arxiv.org/abs/2510.19338),开发者可立即下载体验。

MoE线性注意力时代开启,蚂蚁百灵领跑高效编程AI

此次开源标志着蚂蚁百灵在“MoE+长思维链+RL”路线上的新突破,从Ling2.0系列到Ring-linear,效率提升7倍不止。AIbase认为,在成本仅1/10的长文本推理浪潮中,该模型将重塑开发者生态:编程小白可秒生复杂脚本,代理系统更智能,企业级应用零门槛部署。未来,随着Ring-1T万亿级旗舰跟进,国产MoE或将主导全球高效AI赛道。

结语

Ring-flash-linear-2.0-128K以“小激活大性能”诠释AI开源新范式,为超长编程注入强劲引擎。开发者们,速上Hugging Face/ModelScope试水吧!AIbase将追踪其社区迭代动态。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。