当前位置: 首页 » 资讯 » 新科技 » 正文

马斯克点赞!Kimi 论文撼动大模型“祖传地基”:同样算力,效率提升 25%

IP属地 中国·北京 编辑:江紫萱 Chinaz 时间:2026-03-19 09:25:45

同样的算力与数据,凭什么有的模型效果更好?月之暗面 (Moonshot AI) 给出了一个直击底层逻辑的答案。

3月16日,Kimi发布重磅技术报告 《Attention Residuals》(注意力残差)。该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接(Residual Connections)进行了彻底重构。实验证明,在相同算力下,新方法训练出的模型效果等同于基线模型花费 1.25倍 算力达成的水平。

这一突破迅速引发硅谷 AI 圈震动,在社交媒体公开评价其为“令人印象深刻的工作(Impressive work from Kimi)”。

Jerry Tworek(OpenAI o1主要发明者): 称其为“深度学习2.0”的开端。

Andrej Karpathy(前 OpenAI 联创): 感慨行业对“Attention is All You Need”的理解仍有挖掘空间。

为何要动“祖传地基”?

传统的残差连接虽然解决了深层网络难以训练的问题,但其“等权相加”的方式过于粗暴。随着网络加深,每一层的新贡献极易被庞大的累积信息淹没,导致大量中间层沦为“无效干活”。

Kimi 的“优雅旋转”:

团队发现,深度方向上的信息丢失与 RNN 在时间维度上的遗忘在数学结构上高度一致。于是,他们将原本用于处理文字序列的“注意力机制”横向转动90度,应用到了纵向的深度维度上。

通过 ,每一层不再是被动接受叠加信息,而是通过一个微小的“查询向量”,主动、有选择性地决定从前面哪些层提取多少信息。为了解决大规模训练中的内存开销,团队还创新性地提出了 Block AttnRes 方案,将网络划分为若干块,在确保性能的同时,将推理延迟增量控制在 2% 以内。

在 的实验中,该架构展现了极强的泛化能力。在 GPQA-Diamond 科学推理任务上实现了 7.5% 的飞跃,数学与代码生成任务也分别获得了 3.6% 和 3.1% 的显著增益。

正如创始人 在 GTC2026演讲中所言,行业正逐渐遭遇 Scaling 的瓶颈,必须对优化器、残差连接等底层基石进行重构。当大多数人还在“高层精装修”时,选择下沉到最深处,用一记重锤撬动了深度学习的未来。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新