当前位置：首页 » 资讯 » 新科技 » 正文

马斯克点赞中国AI技术突破：Kimi上大分！残差连接11年来首次被改写

IP属地中国·北京 编辑：杨凌霄智能研发技术及工具 时间：2026-03-21 00:20:29

当全球AI界还在为算力堆砌和内卷式创新焦头烂额时，一家中国AI公司用一篇论文让硅谷集体侧目。月之暗面Kimi的这项突破，不是微小的参数调优，而是对深度学习11年未变的底层架构，完成了一次精准的“心脏手术”。
“Impressive work from Kimi”——当马斯克在海外社交平台敲下这行字时，全球AI圈瞬间沸腾。这位以挑剔著称、深耕AI与航天领域的科技领袖，为中国AI团队月之暗面Kimi的最新研究重磅点赞。而让硅谷侧目、惊艳全球的成果，正是名为《Attention Residuals（注意力残差）》的技术报告——它一举打破了大模型核心架构11年未变的僵局，重构了深度学习的底层残差连接逻辑，为大模型发展掀开了全新的篇章。
自2015年残差连接诞生以来，这套架构就如同大模型的“骨架”，支撑着从百亿到万亿参数模型的训练，却也暗藏着难以突破的性能瓶颈。全球AI研究者在原有框架内反复优化，却始终跳不出“算力堆砌”的困局。而Kimi团队的这次创新，从第一性原理出发，用注意力机制为残差连接装上“智能大脑”，让大模型从“被动接收信息”变为“主动筛选信息”，实现了底层技术的颠覆性突破。
1、十年瓶颈：残差连接的“大锅烩”困境
残差连接 + PreNorm，是现代大语言模型的标配架构。它最核心的贡献，是搭建了一条“梯度高速公路”，让梯度能绕过层变换直接传播，让训练上千层的深层模型成为可能。但鲜少有人注意到，这套架构的底层设计，存在着一个致命的缺陷——固定权重的均匀信息累积。
简单来说，传统残差连接的信息传递，就像一场无差别的“大锅烩”：每一层的输出，都会和前面所有层的输出简单相加，再传递给下一层。无论早期层的信息是否关键，深层层的输出是否冗余，都被赋予相同的权重，硬生生揉在一起。
这种“一刀切”的方式，直接引发了一系列连锁问题：
· 信息稀释：早期层的关键信息在层层传递中被不断稀释，就像往一杯水里反复加水，最终变得淡而无味。
· 幅值爆炸：隐藏状态的幅值随层数呈线性增长，深层网络不得不学习更大的输出才能保持影响力，极易引发训练不稳定。
· 梯度失衡：梯度分布严重失衡，早期层的梯度“一家独大”，深层层的梯度微乎其微，大量层在训练中“划水”，算力被严重浪费。
更棘手的是，现有改进方案始终治标不治本：scaled residual paths、多流递归等方法，仍囿于“加法递归”的框架；部分跨层访问的尝试，又因内存、通信开销过大，难以规模化落地。大模型的发展，陷入了“算力越堆越多，效率却越来越低”的怪圈，而这一切的根源，都在于深度维度的信息聚合，始终缺乏“选择性”。
Kimi团队的研究，恰好抓住了这一核心痛点，更发现了一个极具启发性的规律：大模型的深度维度（网络层数）与序列维度（文本顺序），存在着完美的对偶性。 既然Transformer能用注意力机制，让模型在序列中精准“捕捉”重要的词汇，为什么不能让每一层网络，也在深度维度中精准“挑选”前面的有效信息？
这一灵感，成为了Attention Residuals（AttnRes）的诞生起点。
2、颠覆性创新：让每一层网络都学会“精准挑食”
AttnRes的核心设计，简洁而精妙：用深度维度的可学习Softmax注意力，替换掉残差连接中固定权重的均匀累积，让每一层网络都能根据输入内容，自主决定关注哪些前序层的信息，忽略哪些冗余内容——从“被迫吃大锅饭”变为“精准挑食”。
全注意力残差（Full AttnRes）：给每层装一个“导航大脑
Full AttnRes为每一层网络，配备了一个极轻量的“导航大脑”——一个可学习的d维伪查询向量 wₗ。这个向量就像一层网络的“信息探测器”，会主动扫描前面所有层的输出，通过计算相似度生成注意力权重，再对前序信息进行加权聚合，而非简单的机械相加。
它的计算逻辑清晰且高效：
· 每层的输入，是token嵌入与所有前序层输出的注意力加权和
· 注意力权重经Softmax归一化，确保所有权重之和为1
· 通过RMSNorm处理键向量，避免大幅值层输出主导权重分配
整个设计仅为每层增加一个d维向量，参数量可忽略不计，且初始化为0时等价于均匀平均，完美避免了训练震荡。
这种设计，让Full AttnRes实现了从“深度线性注意力”到“深度Softmax注意力”的跨越——这正是Transformer在序列维度完成的、改变行业的范式升级。而Kimi团队，将这份升级复刻到了深度维度。
块注意力残差（Block AttnRes）：性能与效率的最优解
Full AttnRes虽好，却在大规模训练中面临着内存和通信开销的挑战。为了让这项技术真正实现“即插即用”，Kimi团队进一步提出了Block AttnRes，用“层分块 + 块级聚合”的方式，将内存和通信开销从 O(Ld) 降至 O(Nd)（N为块数），实现了性能与效率的完美平衡。
简单来说，Block AttnRes将整个网络的L层，划分为N个独立的块（实证中N≈8即可收获绝大部分收益），块内沿用传统的残差累加，块间则用注意力机制选择性聚合。每一块的层输出，会被压缩为一个块级表征，每层网络仅需对前序块的完整表征和当前块的部分和做注意力计算，而非所有前序层。
这一设计，让Block AttnRes成为了标准残差连接的“平替方案”：N=L时退化为Full AttnRes，N=1时回归传统残差，既保留了AttnRes的核心优势，又完美适配了大规模分布式训练的需求。
3、基础设施优化：让突破落地的“神助攻”
真正的技术突破，从来都不是纸上谈兵，而是从理论到工程的完美落地。为了让Block AttnRes在训练和推理中实现“低开销、高性能”，Kimi团队设计了两大核心优化方案，将训练开销控制在4%以内，推理延迟开销压至2%以下，真正做到了“性能暴增，成本微增”。
跨阶段缓存：把通信成本打下来
在流水线并行训练中，每个物理阶段（GPU）负责若干层。如果没有优化，每个微批次在阶段间传递时需要发送所有已计算的块表示，导致通信量随微批次数量平方增长。
优化方案是跨阶段缓存：每个物理阶段在本地缓存之前已经接收到的块表示，后续的虚拟阶段只需要发送增量块（新计算的块）。这样，通信量从 O(C²) 降至 O(P²)（P为物理阶段数），实现了数量级的削减，让计算与通信可以完全重叠。
两阶段推理：把内存访问省下来
在推理（特别是长上下文预填充）时，如果每层都重新扫描所有之前层的输出，内存访问量将非常巨大。团队利用查询向量 wₗ 是静态的这一事实，将推理分为两个阶段：
· 阶段1（批处理块间注意力）：对于每个块，一次性计算该块内所有层对之前所有块表示的注意力。由于查询向量已知，之前块的键值只需要从内存读取一次，供块内所有层共享。
· 阶段2（顺序块内注意力）：对于块内各层，顺序处理它们对当前块内部分累加和的注意力。
这种策略将每层的平均内存访问从 O(Ld) 降至 O((S+N)d)。在典型配置（L=128, N=8, S=16）下，每层内存访问约为 24d，远低于Full AttnRes的128d。
内存高效的预填充
在长上下文预填充（例如128K tokens）时，存储所有块表示需要 N·T·d 的内存，对于128K和8块可能达到15GB。团队通过序列维度张量并行将块表示分片到多个设备上，使得每设备内存降至 N·(T/P)·d（例如128K/8 ≈ 16K tokens，内存约1.9GB）。再结合分块预填充，可以进一步降低到0.3GB以下，完美适配长上下文推理需求。
4、实测封神：48B模型1.4T tokens验证，全维度性能飞跃
再好的理论设计，都需要实证数据的支撑。Kimi团队将AttnRes集成到自研的Kimi Linear架构中（48B总参/3B激活参），用1.4T tokens完成了全量预训练，从训练动态、算力效率到下游任务，交出了一份近乎完美的答卷。
训练动态：从“病态失衡”到“健康均衡”
AttnRes从底层解决了PreNorm的稀释问题，让大模型的训练状态实现了质的飞跃：
· 输出幅值不再随层数单调增长，而是被限制在块内，呈现出有界的周期性模式，避免了深层输出过大
· 梯度分布从“早期层一家独大”，变为层间均匀分布，每一层都能被有效训练，彻底告别“划水”状态
· 验证损失全程低于基线模型，且在训练衰减阶段差距持续扩大，模型收敛性大幅提升
算力效率：1.25倍的算力杠杆效应
在缩放律实验中，从194M到528M激活参的5个模型尺度上，AttnRes均展现出一致的性能优势。Block AttnRes在5.6 PFLOP/s-days的计算量下，就能达到基线模型1.25倍计算量的损失水平——这意味着，要实现相同的模型性能，新架构仅需基线模型80%的算力，相当于直接获得了25%的训练效率提升，为企业节省了大量的算力成本。
下游任务：全维度提升，推理与代码成最大赢家
在通用理解、数学/代码推理、中文理解三大类基准测试中，集成了Block AttnRes的模型，实现了全任务匹配或超越基线，其中多步推理和代码生成类任务，成为了最大赢家：
这份亮眼的成绩单，印证了AttnRes的核心价值：深度维度的选择性信息聚合，让深层网络能精准检索早期层的有效表征，尤其提升了组合式任务的性能——而这，正是大模型向更高级智能演进的关键。
5、理论高度：重构残差连接的认知框架
除了实打实的性能提升，《Attention Residuals》的另一大贡献，是为残差连接的研究，建立了全新的理论框架。Kimi团队将所有残差变体，统一为深度混合矩阵 M∈R^{L×L}，从半可分秩和注意力类型的角度，完成了对残差连接的理论重构。
在这个框架下：
· 传统残差、Highway网络属于1-半可分矩阵，是深度线性注意力
· 一些多流残差方法属于m-半可分矩阵，是矩阵值状态的深度线性注意力
· Full AttnRes则是稠密矩阵，实现了真正的深度Softmax注意力
· Block AttnRes的矩阵秩介于N和N+S之间，是理论与工程的最优折衷
这一视角，让整个行业对残差连接的认知，提升到了新的高度：现有所有残差方法，本质上都是深度线性注意力的特例，而AttnRes，是首个实现深度Softmax注意力的方法。 这一结论，为后续残差连接的研究，指明了清晰的方向。
6、全球回响：中国AI的原创力量，让世界侧目
Kimi团队的这次突破，不仅收获了马斯克的点赞，更赢得了全球AI领域的高度认可。OpenAI前研究副总裁、o1系列推理模型主要发明者Jerry Tworek直言，这一技术突破标志着“深度学习2.0”的到来；前OpenAI联合创始人Andrej Karpathy则感慨，“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透”。
而面对马斯克的点赞，Kimi团队的一句“你的火箭造得也不错”，更是成为了科技圈的一段佳话。这场隔空对话，不是简单的客套互夸，而是两个代表不同技术高地的团队，完成的一次精准的跨领域价值互认——马斯克认可的，是Kimi对AI基础架构的深层思考和第一性原理突破；Kimi回应的，是SpaceX在火箭工程中展现的极致系统创新力。
这份认可的背后，是中国AI的华丽转身。曾经，全球大模型领域被海外巨头垄断，中国AI更多在应用层追赶，底层技术、核心架构始终受制于人。而Kimi团队的这次突破，用实打实的原创成果证明：中国AI团队，已经拥有了比肩硅谷的研发能力，能在最核心的底层技术上，实现引领性的创新。
从率先实现200万字超长文本无损处理，到自研MoE架构、二阶优化器，再到如今颠覆残差连接的Attention Residuals——Kimi始终坚守“技术理想主义”，拒绝跟风内卷，深耕底层架构研发，啃别人啃不动的硬骨头，做别人不敢做的原创突破。这份坚守，正是中国AI实现从“跟跑”到“并跑”甚至“领跑”的核心密码。
7、结语
马斯克在评价中曾说，AttnRes对残差机制的重定义，让他想起当年从Sigmoid到ReLU的激活函数变革，看似微小却影响深远。而业内专家普遍认为，Attention Residuals，极有可能成为未来大模型架构的标配。
它的优势显而易见：
· 即插即用：无需修改模型核心架构，可直接替换标准残差连接
· 轻量高效：参数量可忽略，训练和推理开销微乎其微
· 性能全面：既优化了训练动态，又提升了下游任务性能，尤其利好推理、代码等高级任务
值得一提的是，就在不久之前，另一家中国AI团队DeepSeek也提出了自己的残差连接改进方案——mHC（Manifold-Constrained Hyper-Connections），（P.S.我们频道的开篇之作就是介绍这个框架，有兴趣的读者可以往前翻阅！）从数学约束的角度保证了多流残差的稳定性。两条技术路线，一条指向“信息的选择性”，一条指向“信号的数学保证”，共同展现了中国AI在底层架构创新上的蓬勃活力。
而对于未来的研究，AttnRes也留下了广阔的空间：
1.随着硬件能力的提升，更小的块大小、更精细的注意力设计，将进一步挖掘性能潜力
2.将AttnRes与MoE、长上下文注意力、多模态模型结合，将为大模型的发展打开更多可能
3.针对超深层模型设计线性复杂度的深度注意力，将让大模型向更深、更高效的方向演进
马斯克曾预判，2026年将成为AGI的起点元年。而Kimi团队的Attention Residuals，正是为这一起点，献上的一份来自中国AI的硬核答卷。它让我们看到，中国AI早已不是跟风模仿的追随者，而是敢于突破、勇于创新的引领者。
从残差连接的11年瓶颈，到Attention Residuals的颠覆性突破，这场来自中国的技术创新，正在改写全球大模型的发展轨迹。而这，只是中国AI硬核突破的一个开始。未来，必将有更多中国团队，在AI的底层赛道上乘风破浪，用原创技术赢得世界尊重，让中国智造，成为全球科技舞台的核心力量！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微信上新N个功能！网友：超实用

AWS出海“全家桶”升级，解决4个关键痛点，字节vivo、Kimi、MiniMax都来站台

因聚而升融智有为：华为中国合作伙伴大会2026成功启幕

马斯克谈AI竞赛赢家：中国会赢下地球 SpaceX赢下太空

新款小米SU7，“融冰”比销量更重要

抱紧英伟达，硬刚特斯拉：吉利的智驾“翻身仗”能成吗？

全站最新

微信上新N个功能！网友：超实用

AWS出海“全家桶”升级，解决4个关键痛点，字节vivo、Kimi、MiniMax都来站台

因聚而升融智有为：华为中国合作伙伴大会2026成功启幕

马斯克谈AI竞赛赢家：中国会赢下地球 SpaceX赢下太空

热门推荐

微信上新N个功能！网友：超实用

AWS出海“全家桶”升级，解决4个关键痛点，字节vivo、Kimi、MiniMax都来站台

因聚而升融智有为：华为中国合作伙伴大会2026成功启幕

马斯克谈AI竞赛赢家：中国会赢下地球 SpaceX赢下太空

新款小米SU7，“融冰”比销量更重要

抱紧英伟达，硬刚特斯拉：吉利的智驾“翻身仗”能成吗？

三星Galaxy S26系列即将兼容苹果隔空投送，后续通过软件更新推出

新阿维塔12预售：标配华为全球最高896线激光雷达/零百最快2.71秒

MOVA AtomForm将赴美国硅谷发布首款智能12喷嘴3D打印机

嘉定与京东集团举行专题座谈，共谱“合伙人”新篇章

MOVA AtomForm将赴美国硅谷发布首款智能12喷嘴3D打印机

嘉定与京东集团举行专题座谈，共谱“合伙人”新篇章

中国贸促会会长任鸿斌会见美国苹果公司首席执行官蒂姆·库克

继3系后5系也进入“新世代”，宝马换代i5将基于专用纯电平台打造

什么才是AI进化的高光时刻？专家提出应主动查证，自我修正

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

专题

马斯克点赞中国AI技术突破：Kimi上大分！残差连接11年来首次被改写

1、十年瓶颈：残差连接的“大锅烩”困境

2、颠覆性创新：让每一层网络都学会“精准挑食”

3、基础设施优化：让突破落地的“神助攻”

4、实测封神：48B模型1.4T tokens验证，全维度性能飞跃

5、理论高度：重构残差连接的认知框架

6、全球回响：中国AI的原创力量，让世界侧目

7、结语