当前位置: 首页 » 资讯 » 新科技 » 正文

刚刚!Kimi Linear横空出世,全新注意力架构:1M长文本解码速度飙升6.3倍,KV缓存砍掉75%

IP属地 中国·北京 AI寒武纪 时间:2025-10-31 08:12:10


月之暗面刚刚推出了一个非常牛的全新的注意力架构Kimi Linear,有望成为下一代Agent LLM的基石技术。月之暗面已经放出了技术报告《KIMI LINEAR:一种高表达力且高效的注意力结构》并开源了核心代码,注意不是水论文,而是已经在内部得到严格验证

技术报告:

https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf


简单来说月之暗面推出了名为 Kimi Linear 的新型混合线性注意力架构,核心目标是解决当前LLMs在处理长序列任务时面临的计算效率和性能瓶颈。研究团队首次证明,在包括短上下文、长上下文和强化学习等多种场景的公平比较下,Kimi Linear 的性能全面超越了传统的full attention机制

Kimi Linear架构的核心是 Kimi Delta Attention (KDA),一种表达能力更强的线性注意力模块,通过更精细的门控机制实现了对循环神经网络有限状态记忆的有效利用。最终,Kimi Linear 模型不仅在各项任务上取得了更优异的性能,还在效率上实现了巨大突破:与full attention模型相比,能将 Key-Value (KV) 缓存的使用量减少高达 75%,并在处理百万级别的长下文时,实现高达 6 倍的解码吞吐量提升。这表明 Kimi Linear 可以作为全注意力架构的“即插即用”替代品,在提升性能的同时显著增强了效率

按照kimi官方推文的的说法,这代表:

以代理为导向的注意力机制的未来已经到来!The future of agentic-oriented attention is here!

以下是报告详细解读:

先看看当前的困境

随着LLMs朝着更强大的智能体方向发展,它们在推理过程中的计算需求,尤其是在长程推理和强化学习场景下,正成为一个核心瓶颈。在这些场景中,模型需要处理冗长的交互历史、工具使用记录以及复杂的决策空间,这对底层架构的效率提出了严峻挑战

传统的 Transformer 模型依赖于标准的 softmax 注意力机制,这一机制虽然效果强大,但存在两个根本性的效率问题:

二次方时间复杂度:注意力分数的计算与序列长度的平方成正比。这意味着当文本长度从 1000 增加到 1,000,000 时,计算量会增加一百万倍,这在计算上是极其昂贵的

线性增长的 KV 缓存:在自回归生成(解码)过程中,模型需要缓存过去所有 token 的键(Key)和值(Value),这个缓存的大小与序列长度成线性关系。对于百万级别的长文本,KV 缓存会消耗掉大量的显存,限制了模型的吞吐量和并发处理能力,使得实时交互变得困难

为了解决这些问题,研究人员们将目光投向了线性注意力(Linear Attention)。线性注意力通过数学变换,避免了直接计算庞大的注意力矩阵,从而将计算复杂度从二次方降低到线性。然而,这种效率的提升往往伴随着模型表达能力的牺牲,导致其在语言建模任务上的性能长期落后于 softmax 注意力,即便是在短序列上也是如此

近年来,线性注意力的研究取得了显著进展,主要源于两个关键创新:

门控或衰减机制 (gating or decay mechanisms):类似于 RNN 中的门控单元,该机制允许模型动态地决定保留或遗忘历史信息,增强了对上下文的控制能力

增量法则 (delta rule):这一概念源于在线学习,它将注意力状态的更新过程重新解释为一个在重构损失上的在线梯度下降。这使得模型能够将注意力状态(即一个可学习的关联记忆)持续地向新的键值对映射进行修正,从而稳定了学习过程并提升了性能。

这些进步使得线性注意力的性能越来越接近 softmax 注意力。但纯粹的线性结构由于其有限的状态容量,在需要精确检索长序列中特定信息的任务上仍然面临理论上的挑战。因此,混合架构(Hybrid architectures)应运而生,它将少量的全局注意力层(通常是标准的 softmax 注意力)与大量的线性注意力层结合起来,试图在模型质量和计算效率之间找到一个实用的平衡点。尽管如此,之前的混合模型往往规模有限,或者缺乏在多样化基准上的全面评估

真正的挑战依然存在:如何设计一个既能匹配甚至超越全注意力模型性能,又能同时在速度和内存上实现显著效率提升的注意力架构?这正是 Kimi Linear 诞生的背景,它旨在成为下一代高强度解码、智能体式 LLM 的基石

Kimi Linear 的架构设计:一种精巧的混合模式

Kimi Linear 的核心是一种精心设计的混合架构,它巧妙地结合了两种不同类型的注意力层,以实现性能和效率的最佳平衡。该架构的主干遵循了之前的 Moonlight 模型的设计,并在其中融入了创新的注意力机制和混合策略


3:1 的混合层级结构

Kimi Linear 并没有完全抛弃强大的全注意力机制,而是采用了一种层级交错的混合方式。具体来说,模型中的注意力层以一个固定的3:1比例进行重复堆叠,即每三个 Kimi Delta Attention (KDA) 线性注意力层之后,会插入一个全注意力层,即多头潜在注意力(Multi-Head Latent Attention, MLA)

KDA 层:作为模型的主体,负责处理大部分的 token 间交互。它们是线性的,这意味着它们的计算和内存开销不随序列长度二次方增长,保证了模型在处理长文本时的高效率

MLA 层:作为周期性的全局信息枢纽。这些层能够捕捉序列中任意两个 token 之间的依赖关系,弥补了线性注意力在长距离、精细化信息检索上的不足。

月之暗面团队通过消融实验验证了 3:1 是一个最佳比例。例如,提高 KDA 的比例(如 7:1)虽然在训练损失上表现相近,但在验证集上的泛化能力会显著下降;而降低比例(如 1:1)虽然能保持较好的泛化能力,但会牺牲推理效率。纯粹的全注意力基线(0:1)表现甚至更差。因此,3:1 的配置在模型性能和计算效率之间取得了最有效的平衡。这种设计使得 Kimi Linear 能够在长序列生成过程中,将内存和 KV 缓存使用量减少高达 75%

为全注意力层设计的无位置编码 (NoPE)

一个非常引人注目的设计是,Kimi Linear 中的所有全注意力层(MLA)都不使用任何显式的位置编码(No Position Encoding, NoPE),例如主流的 RoPE (Rotary Position Embedding)。这一决策背后有着深刻的考量:

1.模型将编码位置信息和时序偏见(recency bias,即更关注最近的信息)的全部责任都交给了 KDA 层。KDA 本身的设计使其成为一个强大的位置感知算子,其作用类似于甚至强于短卷积或滑动窗口注意力(SWA)等辅助组件

2.这种设计使得全局注意力层(MLA)可以专注于纯粹的内容关联,而 KDA 层则负责处理与位置相关的动态信息

3.实验结果表明,这种策略在长文本任务上表现尤为出色。相比于在全局注意力层中使用 RoPE 的版本,NoPE 设计让模型在长距离的鲁棒性和外推能力更强,因为它避免了 RoPE 中固定频率可能导致的对训练文本长度的过拟合

与专家混合(MoE)的结合

Kimi Linear 架构还结合了专家混合(Mixture-of-Experts, MoE)技术,以在不显著增加计算成本的情况下扩展模型参数规模。在实验中,模型总参数量为 480 亿,但每个前向传播仅激活 30 亿参数(激活 256 个专家中的 8 个)。这种稀疏激活的模式进一步提升了模型的训练和推理效率

总而言之,Kimi Linear 的架构通过 3:1 的 KDA 与 MLA 混合比例、为 MLA 层设计的 NoPE 策略以及与 MoE 技术的结合,构建了一个在表达能力、计算效率和长文本处理能力上都极为出色的模型

核心创新:深入解析 Kimi Delta Attention (KDA)

Kimi Linear 架构的强大能力根植于其核心创新——Kimi Delta Attention (KDA)。KDA 是一种新型的门控线性注意力变体,它在 Gated DeltaNet (GDN) 的基础上进行了关键的改进,从而实现了更精细的内存控制和更高的硬件效率。要理解 KDA,我们需要从线性注意力的演进谈起

从在线学习到门控增量法则

线性注意力作为在线学习:线性注意力可以被看作一个持续更新的矩阵状态,这个状态累积了键值(key-value)的关联信息。这个过程类似于在线学习,不断用新的信息来更新一个记忆矩阵。但简单的累积会导致状态无限增长,旧的、无关的记忆会干扰新的信息

DeltaNet 与重构损失:DeltaNet 将这一过程重新定义为对一个“重构损失”的在线梯度下降。简单来说,模型不再是盲目累积信息,而是不断地将记忆状态S朝着能更好地重构当前值v的方向进行修正(即从k映射到v)。这个修正过程就是经典的“增量法则”(delta rule),它通过一个秩-1 矩阵更新来实现,这种结构非常适合硬件并行计算

Gated DeltaNet (GDN) 与遗忘机制:虽然 DeltaNet 稳定了学习,但它仍然会永久保留所有关联信息。GDN 在此基础上引入了一个简单的标量“遗忘门”(forget gate)α。每次更新前,整个记忆状态S都会乘以这个α。这相当于对记忆施加了一种权重衰减(weight decay),使得模型可以遗忘过时的信息,从而提升了长文本建模的稳定性和泛化能力

KDA 的两大核心改进

KDA 继承了 GDN 的思想,但进行了两个关键的、相互关联的改进,使其表达能力和硬件效率都得到了质的飞跃。

1.精细化的对角门控 (Fine-grained Diagonal Gating)

标准的 GDN 使用的是一个标量(scalar)遗忘门,这意味着在一个注意力头中,所有特征维度都以相同的速率遗忘信息。这种一刀切的方式限制了模型的表达能力。相比之下,KDA 引入了一个对角化的门控矩阵Diag(a_t),它允许每个特征通道(channel-wise)拥有自己独立的遗忘速率

类比 RoPE:这种精细化的控制类似于 RoPE (旋转位置编码) 的工作方式。RoPE 通过为不同维度分配不同的旋转频率来实现精细的位置信息编码。同样地,KDA 的通道级衰减门也赋予了模型在特征维度上进行差异化信息处理的能力,从而可以被看作是一种可学习的、数据依赖的位置编码机制

解锁 RNN 潜力:这种设计使得 KDA 能够更精确地调控其有限的 RNN 状态记忆,选择性地保留关键信息,遗忘无关噪声,从而在混合架构中释放了 RNN 风格模型的潜力

2.硬件高效的块处理算法 (Hardware-Efficient Chunkwise Algorithm)

引入精细化的门控虽然增强了表达能力,但也带来了计算上的挑战,尤其是在除法运算时容易出现数值精度问题。为了解决这个问题并最大化硬件利用率,KDA 采用了一种特制的块处理(chunkwise)并行算法

约束化的 DPLR 结构:从数学上看,KDA 的状态转移可以被视为一种特殊的对角加低秩(Diagonal-Plus-Low-Rank, DPLR)矩阵。通用的 DPLR 结构虽然表达能力强,但计算成本高且难以并行。KDA 通过巧妙的设计,将 DPLR 中的两个低秩向量a和b都与键k绑定,从而简化了计算

减少计算量:这个约束极大地优化了计算流程。相比于通用的 DPLR 公式,KDA 的算法将二级块矩阵的计算数量从四个减少到两个,并额外省去了三次矩阵乘法。这使得 KDA 的算子效率比标准 DPLR 提升了大约 100%

利用 Tensor Cores:在输出阶段,KDA 采用了块间循环(inter-block recurrent)和块内并行(intra-block parallel)的策略,最大限度地利用现代 GPU 上的 Tensor Cores,实现了极高的矩阵乘法吞吐量。

总而言之,KDA 通过引入通道级的精细化门控,使其成为一个强大的位置感知线性注意力模块;同时,通过其定制的、高度优化的块处理算法,解决了精细化门控带来的计算挑战,实现了卓越的硬件效率。这两点共同构成了 Kimi Linear 架构高性能和高效率的基石

全方位性能对决:Kimi Linear 的实证评估

为了证明 Kimi Linear 的优越性,研究团队进行了一系列严格且全面的实验,将其与两个强大的基线模型进行了公平对比:

1.MLA (Multi-Head Latent Attention):一个纯粹的全注意力基线模型

2.GDN-H (Hybrid Gated DeltaNet):一个采用标准 Gated DeltaNet 的混合注意力基线模型

所有模型都采用相同的架构、参数量(480 亿总参数,30 亿激活参数)和训练设置(基于 1.4 万亿 tokens 的语料库),以确保比较的公平性


基础能力测试:合成任务

在进入评估之前,团队首先在三个经典的合成任务上测试了 KDA 的核心能力,这些任务旨在检验模型在长文本场景下的记忆和检索能力

Palindrome (回文):要求模型将一个随机序列逆序输出。这对线性注意力的固定大小记忆状态是一个巨大挑战

Multi Query Associative Recall (MQAR, 多查询关联回忆):测试模型从上下文中检索与多个查询相关联的值的能力,该任务与语言建模性能高度相关

Stack (栈操作):模拟标准的后进先出(LIFO)栈操作,考验模型追踪多个独立状态的能力。

实验结果显示,随着序列长度从 256 增加到 2048,KDA 在所有任务上都取得了最高的准确率,并且收敛速度显著快于 GDN。这证明了 KDA 的精细化衰减门使其能够更精确地管理记忆,选择性地遗忘无关信息,保留关键内容

短上下文性能:预训练和指令微调

在短上下文(short-context)的标准语言模型基准测试中,Kimi Linear 同样展现了全面的优势

预训练阶段 (Pretrain results):在经过 1.4T tokens 预训练后,Kimi Linear 在通用知识(如 HellaSwag, MMLU, BBH)、数学与代码推理(如 GSM8K, CRUXeval)以及中文任务(如 Ceval, CMMLU)等几乎所有类别中,都一致性地优于 MLA 和 GDN-H。例如,在 MMLU-Pro 基准上,Kimi Linear 获得了 51.0 的分数,显著高于 MLA 的 47.2 和 GDN-H 的 47.9

指令微调阶段 (SFT results):经过相同的监督微调(SFT)后,Kimi Linear 的领先优势得以保持。在通用任务上,它在 MMLU、BBH 和 GPQA-Diamond 等多个基准上都取得了最高分。在更具挑战性的数学与代码任务中,它在 AIME 2025、HMMT 2025 和 LiveCodeBench 等高难度基准上也超越了两个基线模型

长上下文性能:关键优势领域

长上下文(long-context)处理是 Kimi Linear 设计的核心目标,实验结果也印证了其在该领域的卓越表现。在 128k 上下文长度的多个基准测试中:

Kimi Linear 取得了54.5的平均分,高于 MLA (52.2) 和 GDN-H (51.2)

在 RULER基准上,Kimi Linear 获得了84.3的高分,领先 MLA (81.3) 和 GDN-H (80.5)

在RepoQA上下文代码理解任务中,它的得分也最高

一个有趣的现象是,在长文本评估中,GDN-H 的性能下降到甚至低于 MLA,而 Kimi Linear 则稳居榜首,这进一步凸显了 KDA 相对于标准 GDN 在长程依赖建模上的优势

强化学习(RL)性能

在需要模型进行多步推理和生成长篇答案的强化学习场景中,Kimi Linear 的优势更加明显。在数学任务的 RL 训练中,与 MLA 相比:

Kimi Linear 的训练准确率增长速度更快,与 MLA 的差距随着训练的进行逐渐拉大

在测试集(如 MATH500 和 AIME 2025)上,Kimi Linear 实现了更快、更好的性能提升。这表明 Kimi Linear 在需要复杂、长程推理的生成任务中表现明显优于全注意力模型

效率对比:速度与内存的双重胜利

Kimi Linear 不仅性能更强,效率也更高

解码速度:在解码阶段,Kimi Linear 的优势随着序列长度的增加而急剧扩大。在百万(1M)token 的上下文长度下,其单个 token 的生成时间(Time per output token, TPOT)仅为1.84ms,而全注意力 MLA 则需要11.48ms。这使得 Kimi Linear 能够支持更大的批处理大小,最终实现了比 MLA 快6.3 倍的吞吐量


预填充速度:在处理初始长文本的预填充阶段,Kimi Linear 的速度也远超 MLA。在 1M 长度下,其速度是 MLA 的 2.9 倍

内存占用:由于其 3:1 的混合设计,Kimi Linear 的 KV 缓存大小仅为纯 MLA 模型的约 25%,极大地节省了显存资源

综合来看,Kimi Linear 在性能和效率两个维度上都实现了对全注意力的超越,证明了其作为下一代大语言模型核心架构的巨大潜力

经过精心设计的线性注意力(如 KDA)与全局注意力的混合架构,完全有能力在性能上超越纯粹的全注意力模型。Kimi Linear 摆脱了以往线性注意力“性能稍逊但效率更高”的给大家的固有印象,首次实现了一个在性能和效率上双赢的解决方案。其核心 KDA 模块通过精细化的通道级门控和硬件感知的设计,展示了线性注意力在表达能力上的巨大潜力

Kimi Linear 提出了一个有趣且有效的观点:线性注意力层自身可以承担起编码位置信息的全部责任,从而解放全局注意力层,使其专注于内容层面的关联。KDA 被诠释为一种可学习的、数据依赖的动态位置编码机制,这为解决传统位置编码(如 RoPE)在长文本外推上的局限性提供了一条新的路径。这一设计简化了模型架构,并增强了其在超长上下文中的鲁棒性

开源

为了推动社区的进一步研究,Kimi Linear 团队开源了其核心的 KDA CUDA 核函数、vLLM 的集成实现,以及预训练和指令微调的模型检查点

更多细节:

https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新