同样的算力与数据,凭什么有的模型效果更好?月之暗面 (Moonshot AI) 给出了一个直击底层逻辑的答案。
3月16日,Kimi发布重磅技术报告 《Attention Residuals》(注意力残差)。该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接(Residual Connections)进行了彻底重构。实验证明,在相同算力下,新方法训练出的模型效果等同于基线模型花费 1.25倍 算力达成的水平。
这一突破迅速引发硅谷 AI 圈震动,在社交媒体公开评价其为“令人印象深刻的工作(Impressive work from Kimi)”。
Jerry Tworek(OpenAI o1主要发明者): 称其为“深度学习2.0”的开端。
Andrej Karpathy(前 OpenAI 联创): 感慨行业对“Attention is All You Need”的理解仍有挖掘空间。
为何要动“祖传地基”?
传统的残差连接虽然解决了深层网络难以训练的问题,但其“等权相加”的方式过于粗暴。随着网络加深,每一层的新贡献极易被庞大的累积信息淹没,导致大量中间层沦为“无效干活”。
Kimi 的“优雅旋转”:
团队发现,深度方向上的信息丢失与 RNN 在时间维度上的遗忘在数学结构上高度一致。于是,他们将原本用于处理文字序列的“注意力机制”横向转动90度,应用到了纵向的深度维度上。
通过 ,每一层不再是被动接受叠加信息,而是通过一个微小的“查询向量”,主动、有选择性地决定从前面哪些层提取多少信息。为了解决大规模训练中的内存开销,团队还创新性地提出了 Block AttnRes 方案,将网络划分为若干块,在确保性能的同时,将推理延迟增量控制在 2% 以内。
在 的实验中,该架构展现了极强的泛化能力。在 GPQA-Diamond 科学推理任务上实现了 7.5% 的飞跃,数学与代码生成任务也分别获得了 3.6% 和 3.1% 的显著增益。
正如创始人 在 GTC2026演讲中所言,行业正逐渐遭遇 Scaling 的瓶颈,必须对优化器、残差连接等底层基石进行重构。当大多数人还在“高层精装修”时,选择下沉到最深处,用一记重锤撬动了深度学习的未来。




京公网安备 11011402013531号