当前位置：首页 » 资讯 » 新科技 » 正文

马斯克点赞！Kimi 论文撼动大模型“祖传地基”：同样算力，效率提升 25%

IP属地中国·北京 编辑：江紫萱 Chinaz 时间：2026-03-19 09:25:45

同样的算力与数据，凭什么有的模型效果更好?月之暗面（Moonshot AI）给出了一个直击底层逻辑的答案。
3月16日，Kimi发布重磅技术报告《Attention Residuals》（注意力残差）。该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接（Residual Connections）进行了彻底重构。实验证明，在相同算力下，新方法训练出的模型效果等同于基线模型花费 1.25倍算力达成的水平。
这一突破迅速引发硅谷 AI 圈震动，在社交媒体公开评价其为“令人印象深刻的工作（Impressive work from Kimi）”。
Jerry Tworek（OpenAI o1主要发明者）: 称其为“深度学习2.0”的开端。
Andrej Karpathy（前 OpenAI 联创）: 感慨行业对“Attention is All You Need”的理解仍有挖掘空间。
为何要动“祖传地基”?
传统的残差连接虽然解决了深层网络难以训练的问题，但其“等权相加”的方式过于粗暴。随着网络加深，每一层的新贡献极易被庞大的累积信息淹没，导致大量中间层沦为“无效干活”。
Kimi 的“优雅旋转”:
团队发现，深度方向上的信息丢失与 RNN 在时间维度上的遗忘在数学结构上高度一致。于是，他们将原本用于处理文字序列的“注意力机制”横向转动90度，应用到了纵向的深度维度上。
通过，每一层不再是被动接受叠加信息，而是通过一个微小的“查询向量”，主动、有选择性地决定从前面哪些层提取多少信息。为了解决大规模训练中的内存开销，团队还创新性地提出了 Block AttnRes 方案，将网络划分为若干块，在确保性能的同时，将推理延迟增量控制在 2% 以内。
在的实验中，该架构展现了极强的泛化能力。在 GPQA-Diamond 科学推理任务上实现了 7.5% 的飞跃，数学与代码生成任务也分别获得了 3.6% 和 3.1% 的显著增益。
正如创始人在 GTC2026演讲中所言，行业正逐渐遭遇 Scaling 的瓶颈，必须对优化器、残差连接等底层基石进行重构。当大多数人还在“高层精装修”时，选择下沉到最深处，用一记重锤撬动了深度学习的未来。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微博：2025年总营收125.76亿元，归属股东净利润同比增49%

2000万只“龙虾”进入企业，阿里的新企业Agent故事 | 最前线

第四届微信小程序全球创新挑战赛在香港启动

腾讯云安全团队腾讯研究院安全研究中心：腾讯云安全白皮书

97年女生！字节Seed研究员曾妍晋升为4-2

网易辟谣“AI清退外包员工”

全站最新

微博：2025年总营收125.76亿元，归属股东净利润同比增49%

2000万只“龙虾”进入企业，阿里的新企业Agent故事 | 最前线

第四届微信小程序全球创新挑战赛在香港启动

腾讯云安全团队腾讯研究院安全研究中心：腾讯云安全白皮书

热门推荐

微博：2025年总营收125.76亿元，归属股东净利润同比增49%

Meta 内部 AI 代理失控引发数据泄露，事故定性为 Sev1级安全事件

DeepSeek V4 招聘泄露玄机：AI 编程将成核心突破口

腾讯 4 月放出大招！混元 3.0 即将登场：天才科学家坐镇，龙虾军团全线出击

马化腾首谈“龙虾”应用:深耕AI Agent并坚持去中心化生态

微信将推原生 AI 智能体：打通小程序与支付，14 亿用户生活迎来新变革

苹果以违反规则为由，限制 AI 氛围编程应用在 App Store 更新

DeepSeek V4 呼之欲出：招聘信息泄露天机，编程能力直指 Claude？

阿里淘天启动 2027 届实习生招聘：技术岗占比超 9 成，首设 3 类 AI 专项岗

腾讯总裁刘炽平：2026 年 AI 新产品投入将翻倍，春节推广成果超预期

马斯克点赞！Kimi 论文撼动大模型“祖传地基”：同样算力，效率提升 25%

腾讯混元 3.0 定档 4 月：推理与智能体能力迎来重大升级

2000万只“龙虾”进入企业，阿里的新企业Agent故事 | 最前线

第四届微信小程序全球创新挑战赛在香港启动

腾讯云安全团队腾讯研究院安全研究中心：腾讯云安全白皮书