摘要：我们提出了 Kimi Linear，这是一种混合型线性注意力架构。在公平对比下，它首次在多种场景（包括短上下文、长上下文，以及强化学习（RL）扩展范式）中超越了全注意力（full attention）。其核心是 Kimi Delta Attention（KDA）：一个具有强表达能力的线性注意力模块。KDA 以更细粒度的门控机制扩展了 Gated DeltaNet，使有限状态 RNN 的“记忆”（memory）得以更高效地利用。我们定制的分块式（chunkwise）算法采用 Diagonal-Plus-LowRank（DPLR）转移矩阵的特化变体，实现了高硬件效率；与通用 DPLR 形式相比，它显著降低计算量，同时与经典的 delta 规则更加一致。我们基于逐层混合的 KDA 与 Multi-Head Latent Attention（MLA）预训练了一个 Kimi Linear 模型，具有 3B 激活参数与 48B 总参数。实验表明，在相同训练配方下，Kimi Linear 在所有评测任务上均以显著优势超过纯 MLA；同时 KV 缓存占用最多可降低 75%，在 1M上下文下的解码吞吐最高可达 6×。这些结果表明，Kimi Linear 可以作为全注意力架构的即插即用替代方案，在性能与效率上更优，且适用于更长输入与输出长度的任务。为支持进一步研究，我们开源了 KDA 内核与 vLLM 实现，并发布了预训练与指令微调的模型检查点。

1. Intro

Transformer在推理阶段的瓶颈越来越限制，包括在做RL/长文本任务的时候，Test Time Scaling的需求非常高。Linear Attention提供了一条系统化的降低复杂度的路径，但表达力受限。近日，这种差距逐渐缩小，主要得益于：

门控/衰减机制
Delte Rule

但是纯Linear Attention结构的方法从根本上受限于有限状态容量，因此理论上使得长序列建模与上下文内检索任务在Linear Attention上依旧是受限的。为了解决这种问题，结合softmax与线性注意力的混合架构是一种综合效率与质量的选择。

先前的混合架构工作规模受限、缺乏完整的研究和评测。

关键挑战依旧在于：设计一种在质量上能匹配或超越全注意力，同时在速度与内存上实现显著效率收益的注意力架构 ——这对支撑新一代以智能体与重解码为特征的 LLM 至关重要。

本文提出Kimi Linear，是一种为满足智能体与Test Time Scaling需求而设计、且不牺牲质量的混合线性注意力架构。核心是Kimi Delta Attention（KDA），一个硬件高效的线性注意力模块。KDA以更细的Gating机制扩展了Gated DeltaNet。Mamba2采用head-wise的遗忘门，而KDA则采用Channel-wise的变体。这种细粒度设计能更精确地调控有限状态 RNN 的记忆，从而释放 RNN 风格模型在混合架构中的潜力。

进一步地，KDA引入了对角+低秩（DPLR）的一种特化变体，参数化其状态转移算法，实现了一个定制的chunkwise parallel算法，显著减少计算量的同时与经典的Delta Rule保持一致。

Kimi Linear采用经典的3:1固定比例将KDA和Full Attention交替排列。在长序列任务重使得KV Cache的使用量降低最高75%，同时保留全局信息流。通过与训练与评测，Kimi Linear在短上下文、长上下文、RL Post-training上都能稳定地匹配活超越强力的Full Attention Baseline，并在1M上下文长度下实现了最高 $6 \times$ 的Decode吞吐提升。

Contributions：

Kimi Delta Attention（KDA） ：一种线性注意力机制，在 门控 delta 规则 框架下改进了** 循环记忆管理与硬件效率**。
Kimi Linear 架构 ：采用 KDA:全局注意力 = 3:1 的混合设计，在** 降低内存占用的同时 超越全注意力质量**。
规模化的公平实证 ：在 1.4T token 的训练中，Kimi Linear 在短/长上下文与 RL 风格评测上优于全注意力与其他基线；同时** 完整发布内核、vLLM 集成与 检查点**。

2. Preliminary

2.1. Notation

记 $□_{t} \in R^{d_{k}} / R^{d_{v}}, s.t., □ \in {q, k, v, o, u, w}$ s的第 $t$ 列； $S_{t} \in R^{d_{k} \times d_{v}}$ 是Hidden State/记忆状态； $M, M^{-}$ 是包含/不包含对角线的下三角矩阵掩码，分别写作Tril和StrictTril。

Chunk-wise Formulation

假设将序列分为 $L / C$ 个分块，每块长度为 $C$ 。定义 $□_{[t]} \in R^{C \times d}, □ \in {Q, K, V, O, U, W}$ 是对应分块内所有的列向量形成的矩阵，记 $□_{[t]}^{r} = □_{tC + r}$ ，注意需要 $t \in [0, L / C), r \in [1, C]$ 。另外，约定 $S [t] := S_{[t]}^{0} = S_{[t - 1]}^{C}$ ，即一个分块的起始元素是上个分块的结束元素。

Decay Formulation

定义累计衰减： $γ_{[t]}^{i \to j} := \prod_{k = i}^{j} α_{[t]}^{k}$ ，简写 $γ_{[t]}^{1 \to r} := γ_{[t]}^{r}$ 。另外地，记 $A [t] := A_{[t]}^{i / j} \in R^{C \times C}$ ，是 $γ_{[t]}^{i} / γ_{[t]}^{j}$ 构成的矩阵。 $Diag (α_{t})$ 表示细粒度衰减的对角矩阵，且 $\text{Diag}(\gamma_{[t]}^{i\rightarrow j}):=\prod^j_{k=1}\text{Diag}(\alpha^k_{[t]}), $$\Gamma^{i\rightarrow j}_{[t]}\in \mathbb R^{C\times d_k}$ 是从 $γ_{[t]}^{i}$ 到 $γ_{[t]}^{j}$ 形成的堆叠矩阵。

2.2. Linear Attention and the Gated Delta Rule

Linear Attention as Online Learning

Linear Attention维护一组矩阵状态，累计Key-Value关联：

S_{t} = S_{t - 1} + k_{t} v_{t}^{⊤}, o_{t} = S_{t}^{⊤} q_{t} .

从Fast weight角度， $S_{t}$ 作为associative memory，存储key到value的瞬时映射，更新等驾驭对unbounded correlation objective做一次梯度下降：

L_{t} (S) = - ⟨ S^{⊤} k_{t}, v_{t} ⟩

不断强化最近一次key-value对，但不能遗忘之前的内容导致对上下文造成干扰。

DeltaNet: Onlinen Gradient Descent on Reconstruction Loss

DeltaNet进一步扩展到：

L_{t} (S) = \frac{1}{2} ∣∣ S^{⊤} k_{t} - v_{t} ∣ ∣^{2}

以学习率 $β_{t}$ 进行一步更新：

S_{t} = S_{t - 1} - β_{t} \nabla_{S} L_{t} (S_{t - 1}) = (I - β_{t} k_{t} k_{t}^{⊤}) S_{t - 1} + β_{t} k_{t} v_{t}^{⊤}

就是最经典的DeltaRule。这种更新结构是广义Householder变换，支持硬件高效的分块并行化。

Gated DeltaNet as Weight Decay

Gated DeltaNet引入标量遗忘门 $α_{t} \in [0, 1]$ ，得到：

S_{t} = α_{t} (I - β_{t} k_{t} k_{t}^{⊤}) S_{t - 1} + β_{t} k_{t} v_{t}^{⊤}

$α_{t}$ 对Fast Weight做了类似weight decay的作用，提供了有效的遗忘机制。另一个角度来说，GDN 也可被视为一种乘性位置编码：其状态转移矩阵数据依赖且可学习，从而放宽了 RoPE 的正交性约束。

3. Kimi Delta Attention: Improving Delta Rule with Fine-grained Gating

我们提出Kimi Delta Attention，这是一种新的Gating Linear Attention变体，将Gated Delta Net的标量decay替换对对角化的细粒度Gating $Diag (α_{t})$ ，从而对记忆衰减和位置感知进行更细粒度的控制。

KDA的递推与读出为：

S_{t} = (I - β_{t} k_{t} k_{t}^{⊤}) Diag (α_{t}) S_{t - 1} + β_{t} k_{t} v_{t}^{⊤} \in R^{d_{k} \times d_{v}}, o_{t} = S_{t}^{⊤} q_{t} \in R^{d_{v}}

3.1. Hardware-Efficient Chunkwise Algorithm

将上面的递推按照分块的模式下部分展开，可以得到：

S_{r} [t] = P_{r} [t] i = 1 \prod r (I - β_{i} [t], k_{i} [t] k_{i} [t]^{⊤}) Diag (α_{i} [t]) S_{0} [t] + := H_{r} [t] \sum i = 1^{r} (j = i + 1 \prod r! (I - β_{j} [t] k_{j} [t] k_{j} [t]^{⊤}) Diag (α_{j} [t])) β_{i} [t] k_{i} [t] v_{i} [t]^{⊤} .

WY Representation

WYB表示经常用来打包表示一系列的rank-1更新。遵循Comba的 $P$ 表述，以避免后续额外的矩阵求逆：

P_{r} [t] H_{r} [t] = Diag (γ_{[t]}^{r}) - i = 1 \sum r Diag (γ_{[t]}^{i \to r}) k_{i} [t] w_{i} [t]^{⊤}, = i = 1 \sum r Diag (γ_{[t]}^{i \to r}) k_{i} [t] u_{i} [t]^{⊤} .

其中的辅助向量 $w_{t} \in R^{d_{k}}, u_{t} \in R^{d_{v}}$ ：

w_{[t]}^{r} = β_{[t]}^{r} (Diag (γ_{[t]}^{r}) k_{[t]}^{r} - i = 1 \sum r - 1 w_{i} [t] (k_{[t]}^{i ⊤} Diag (γ_{[t]}^{i \to r}) k_{[t]}^{r}))

u_{[t]}^{r} = β_{[t]}^{r} (v_{[t]}^{r} - i = 1 \sum r - 1 u_{[t]}^{i} (k_{[t]}^{i ⊤}, Diag (γ_{[t]}^{i \to r}) k_{[t]}^{r}))

UT Transform

为了减少非矩阵成的FLOPs、提升训练时的硬件利用率，采用UT变换构造三角系统，并用前向代替求拟。

M_{[t]} = (I + StrictTril (Diag (β_{[t]}) (Γ_{[t]}^{1 \to C} ⊙ K_{[t]}) (\frac{K _{[t]}}{Γ _{[t]}^{1 \to C}})^{⊤}))^{- 1} Diag (β_{[t]}) W_{[t]} = M_{[t]} (Γ_{[t]}^{1 \to C} ⊙ K_{[t]}), U_{[t]} = M_{[t]} V_{[t]}

相应地，更新也可以写作chunk-wise的形式：

S_{[t + 1]} = Diag (γ_{[t]}^{C}) S_{[t]} + (Γ_{[t]}^{i \to C} ⊙ K_{[t]})^{⊤} (U_{[t]} - W_{[t]} S_{[t]}) \in R^{d_{k} \times d_{v}}

而输出阶段，采用块内并行、块间递归的策略，最大化矩阵乘法/Tensor Core的吞吐：

O_{[t]} = inter chunk (Γ_{[t]}^{1 \to C} ⊙ Q_{[t]}) S_{[t]} + intra chunk Tril (Γ_{[t]}^{1 \to C} ⊙ Q_{[t]}) \frac{K _{[t]}}{Γ _{[t]}^{1] C}}^{⊤} "pseudo"-value term (U_{[t]} - W_{[t]} S_{[t]}) \in R^{C \times d_{v}}

3.2. Efficient Analysis

表征能力上，KDA与广义DPLR形式 $S_{t} = (D - a_{t} b_{t}^{⊤}) S_{t - 1} + k_{t} v_{t}^{⊤}$ 等效，二者都体现了细粒度衰减。但细粒度衰减会在某些除法步骤引入数值精度问题。之前的GLA等采用对数计算、二级分块且全精度的做法来缓解，但对吞吐影响很大；KDA通过把 $a, b$ 都绑定到 $k$ ，缓解了该瓶颈。

4. The Kimi Linear Model Architecture

Backbone遵循Moonlight，除了细粒度Gating之外，还引入了若干组件进一步增强Kimi Linear表达能力。

Neural Parameterization

设 $x_{t} \in R^{d}$ 是第 $t$ 个token的输入表达，KDA每个head $h$ 的输入：

q_{t}^{h}, k_{t}^{h} v_{t}^{h} α_{t}^{h} β_{t}^{h} = L2 Norm (Swish (Short Conv (W_{q / k}^{h} x_{t}))) \in R^{d_{k}} = Swish (Short Conv (W_{v}^{h} x_{t})) \in R^{d_{v}} = f (W_{α}^{↑} W_{α}^{↓} x_{t}) \in [0, 1]^{d_{k}} = Sigmoid (W_{β}^{h} x_{t}) \in [0, 1]

试验中 $d_{k}, d_{v} = 128$ ，对 $q, k, v$ 都先做ShortConv再接Swish激活，然后对 $q, k$ 做L2Norm，提升稳定性。逐通道的遗忘系数 $α_{t}^{h}$ 通过low-rank projection（ $W_{α}^{↓}, W_{α}^{↑}$ 的rank等于head的维度）并配合衰减函数 $f (\cdot)$ 来参数化。输出前按头RMSNorm和Data Dependent Gating，并最终通过 $W_{o} \in R^{d \times d}$ 做输出投影。

Hybrid model architecture

纯线性注意力在长上下文检索上仍是主要瓶颈，因此我们将 KDA 与少量全局注意力（Full MLA）层混合。出于实现简单与训练稳定的考虑，Kimi Linear 采用按层交替（layerwise）而非按头混合（headwise）的策略。实证显示，3:1 的均匀比例（3 个 KDA 层 + 1 个 Full MLA 层循环）可在质量—吞吐之间取得最佳折中。

No Position Encoding (NoPE) for MLA Layers

Kimi Linear 对所有 Full MLA 层采用 NoPE 。这意味着位置/新近性偏置 完全交由 KDA 承担——KDA 成为主要的** 位置感知算子**，其作用类似或强于短卷积、SWA等辅助组件。我们的发现与一致：** 全局 NoPE 注意力** 配合** 专门的“位置感知”机制**，同样可获得有竞争力的长上下文表现。NoPE 还带来两点工程优势：其一，推理时便于将 MLA 转换为** 高效的纯 MQA**；其二，简化长上下文训练流程——无需对 RoPE 做基频调参或采用 YaRN等方法。

5. Experiments

5.1. Synthetic tests

比较小规模的合成实验，2层2head，head dim=128，训练最多20000步。任务包括：

Palindrome回文，要求模型将给定的随机token序列逆序复制，对Linear Attention类很难，因为需要从固定容量的压缩记忆中精确回溯历史；

MQAR，Multi-Query Associative Recal，多查询关联检索，主要评估模型在上下文不同位置，对多个query的关联value的检索能力

Stack，LIFO，评估状态跟踪能力，模型需要在一系列<push> 1 G, <pop> 0 E这样的操作中准确维护多个栈的状态，并且在每次<pop>的时候给出正确元素。

随着序列长度由 256 提升到 2,048，KDA 在三类任务上一致取得最高准确率；在回文与检索密集的 MQAR 上，KDA 的收敛速度明显快于 GDN，验证了细粒度衰减有助于选择性遗忘无关信息、更精确地保留关键信息。此外，在我们的设置下，仅用乘性衰减、且缺乏 delta 规则的 Mamba2 在这些任务上均未收敛。

5.2. Ablation on Key Components of Kimi Linear

在16层、16head上直接做对比，所有模型共享FLOPs与超参：

Output Gate，默认采用Sigmoid，去掉Gating掉点，将output gate改成swish表现显著劣于Sigmoid；
Shortcut Conv，去掉掉点，因为比较小的Channel-Wise卷积被认为有助于建模局部token；
Hybird Ratio，发现3：1最好，为什么0:1反而差？可能是没有RoPE的原因
NoPE vs. RoPE，Kimi Linear在长上下文里更好而RoPE版在短上下文中相近。

我们推测：这源自位置偏置在深度上的分配差异。RoPE 版本里，全局注意力层承载强显式相对位置信号，而线性注意力（如 GDN）仅提供弱隐式偏置，导致全局层过度强调短程顺序——有利于短上下文，却削弱了中途扩展上下文时的灵活性。相反，Kimi Linear 在层间诱导更均衡的位置偏置，带来更强的长程鲁棒性与外推。在长上下文基准上的平均分，Kimi Linear 也最佳。

5.3. Scaling Law of Kimi Linear

若进一步精调超参，KDA 的 Scaling 曲线还能更优。

5.4. Experimental Setup

Kimi Linear and baseline settings

将 Kimi Linear 与 ** 全注意力 MLA**、以及** 混合 GDN（GDN-H）做对比。这三者在架构、参数量与训练配置上保持一致以保证公平；整体与 Moonlight 对齐，主要区别是 ** MoE 稀疏度设为 32。

每个模型在 256 个专家中激活 8 个 （包含一个共享专家），因此总参数 约 48B ，每次前向激活参数 约 3B 。
首层使用致密层（非 MoE）以保证训练稳定。
为验证 NoPE 的有效性，还引入使用 ** RoPE** 的同构 KDA 混合基线，记作 ** Kimi Linear（RoPE）**。

Benchmarks

语言理解与推理 ：Hellaswag、ARC-Challenge、Winogrande、MMLU、TriviaQA、MMLU-Redux、MMLU-Pro、GPQA-Diamond、BBH。
代码生成 ：LiveCodeBench v6、EvalPlus。
数学与推理 ：AIME 2025、MATH 500、HMMT 2025、PolyMath-en。
长上下文 ：MRCR、RULER、Frames、HELMET-ICL、RepoQA、Long Code Arena、LongBench v2。
中文理解与推理 ：C-Eval、CMMLU。

5.4.1. Pretraining recipe

上下文窗口：4,096。
优化器：MuonClip；学习率调度：WSD。
总训练 token：共享 1.4T（来自 K2 预训练语料）。
学习率： $1.1 \times 1 0^{- 3}$ ；全局 batch：3,200 万 token。
退火与长上下文激活阶段：与 Kimi K2一致。

最终发布的 Kimi Linear checkpoint 使用相同流程，但将总 token 扩至 5.7T（与 Moonlight 匹配），并支持最长 1M 上下文。

5.4.2. Post-training recipe

SFT：在 K2的 SFT 数据上扩充，加入更多推理任务，形成覆盖多领域、重数学与代码的大规模指令调优集。采用多阶段 SFT：先广域通用指令学习，再计划性地聚焦推理密集数据以增强推理能力。

RL：提示集重点整合数学、代码与 STEM 三类数据，以提升推理。在 RL 前，基于起始 checkpoint 预选中等难度样本。

为对抗 RL 造成的通用能力退化风险，我们在 RL 期间引入 PTX loss ，即在 RL 进程中并行进行 SFT，所用 PTX 数据既含推理也含通用任务，均为 K2 训练配方的子集。
算法：与 K1.5 相同，并加入若干改进技巧：
- truncated importance sampling，缓解rollout 与训练策略不匹配；
- 动态调整 KL 惩罚与 mini-batch 大小（每次迭代更新步数），稳定 RL、避免熵崩塌。

5.5. Main results

5.5.1. Kimi Linear@1.4T results

Pretraining Results
- 通用知识 ：在 BBH、MMLU、HellaSwag 等关键基准上均取得最高分。
- 推理：在数学（GSM8K）与大多数代码任务（CRUXEval）上领先；但在 EvalPlus 上较 GDN-H 略低。
- 中文任务 ：在 CEval 与 CMMLU 上取得最高分。

SFT Results
- 通用任务 ：在多种 MMLU 变体、BBH、GPQA-Diamond 上全面领先。
- 数学/代码任务 ：在 AIME 2025、HMMT 2025、PolyMath-en、LiveCodeBench 等难度较高的基准上均优于两条基线。
- 虽然在个别项目（如 MATH500 与 EvalPlus）上存在小幅例外，但整体上 Kimi Linear 的优势稳健且显著 ，清晰优于对照模型（GDN-H 与 MLA）。

Long Context
- 在 RULER（84.3）与 RepoQA（68.5）上以显著优势 拿到最高分；
- 除 LongBench V2 与 Frames 外，其他多数任务上也保持领先；
- 总体平均分 为 54.5 ，再次强化了其在长上下文场景中的领先性。

RL Results

5.6. Efficiency Comparison

尽管 Kimi Linear 引入了更细粒度的衰减机制，但在 prefilling 阶段相较 GDN-H 几乎无额外时延。两者的曲线几乎重合，验证了方法的高效率。
随着序列长度增加，混合式的 Kimi Linear 在效率上明显优于 MLA：
- 在较短长度（4k–16k）时与 MLA 相当；
- 从 128k 起显著更快，并在大规模下优势进一步扩大：
  - 序列长 512k 时，Kimi Linear 比 MLA 快 2.3 倍；
  - 序列长 1M 时，快 2.9 倍。
在解码阶段：当上下文长度为 1M 时，Kimi Linear 的每 token 时间（TPOT）比全注意力快 6×。

6. Discussions

6.1. Kimi Delta Attentino as learnable positin embeddings

标准的Self Attention自己没办法感知到序列的顺序，因此需要显示的位置编码。像RoPE这样的乘性的位置编码，可以通过如下的广义注意力进行分析：

s_{t, i} = q_{t}^{⊤} (j = i + 1 \prod t R_{j}) k_{i}

其中第 $t$ 个查询 $q_{t}$ 与第 $i$ 个key $k_{i}$ 的相对位置关系，由累计矩阵乘结果反应。RoPE将 $R_{j}$ 定义为块对角矩阵：

R_{j}^{(k)} = [cos (j θ_{k}) sin (j θ_{k}) - sin (j θ_{k}) cos (j θ_{k})]

共 $d_{k} /2$ 个，每对二维特征分配个字的角频率，由于旋转的性质（如 $R_{t - i} = R_{t}^{⊤} R_{i}$ ），绝对位置（作用在 $q, k$ 上的 $R_{t}, R_{i}$ ）可以各自独立地施加，并在注意力计算的过程中自动转换为相对位置 $t - i$ ：

j = i + 1 \prod t R_{j} = [cos ((t - i) θ_{k}) sin ((t - i) θ_{k}) - sin ((t - i) θ_{k}) cos ((t - i) θ_{k})]

从这个角度看，带Delta Rule的Linear Attention和上面的广义注意力的机制很相似，

o_{t} = i = 1 \sum t (q_{t}^{⊤} (j = i + 1 \prod t A_{j} (I - β_{j} k_{j} k_{j}^{⊤})) k_{j}) v_{j}

因此，Gated Delta Net可以被解释为一种乘性的位置编码，状态转移矩阵是input dependent的，并且可学习，放宽了RoPE的正交约束性，理论上更强.

这也为 RoPE 的已知外推问题提供潜在解法：RoPE 的固定频率容易对训练时见过的上下文长度发生过拟合。一些工作采用部分 RoPE，甚至直接取消显式位置编码（NoPE）。鉴于 GDN 与 RoPE 角色相近，我们在模型中为全局 Full Attention（MLA）选择 NoPE，把位置信息的建模交给所提出的 KDA 来动态学习。

6.2. Relation to DPLR

Gated DeltaNet可以推广为更具表达力的DPLR结构，形式为 $D - a_{t} b_{t}^{⊤}$ ，S4是静态的DPLR。DPLR引入了更好的表达，但是并行能力很差。

为此，KDA提出一种受约束的DPLR变体：

S_{t} = (Diag (α_{t}) - β_{t} k_{t} k_{t}^{⊤} Diag (α_{t})) S_{t - 1} + β_{t} k_{t} v_{t}^{⊤}

对应地一般DPLR：

S_{t} = (D - a_{t} b_{t}^{⊤}) S_{t - 1} + k_{t} v_{t}^{⊤}, s.t., D = Diag (α_{t}), a_{t} = β_{t} k_{t}, b_{t} = k_{t} ⊙ α_{t} .

进一步地，通过共享 $α_{t}$ ，将它提到式子外面：先对 $S_{t}$ 施加细粒度衰减，再通过接近DeltaNet的HouseHolder风格变换，实现高效的状态更新。

上面的PyTorch 风格伪代码给出了分块 DPLR 与分块 KDA 的实现，关键改进如下：

数值稳定性：在分块形式中， $Γ$ 的倒数（如 $1/Γ$ ）会带来不稳定。可用二级分块缓解，但会增加计算与 I/O。KDA 在 DPLR 中令 $a = b = k$ ，从而移除两步二级分块，减少冗余操作并提升总体效率。
矩阵乘减少：相较 DPLR，KDA 在块间与输出计算中额外消去约三次矩阵乘，带来核级加速。

6.3. 复杂度分析

FLOP_{KDA} (T; C, d_{h}) = 6 T d_{h}^{2} + 3 TC d_{h} + T C^{2}

相比于FullAttention：

FLOPs_{Attn} (T; d_{h}) = 2 T^{2} d_{h}

7.1. Efficient Subquadratic Attention

Linear Attention

精细的记忆控制、效率权衡、FastWeight。

Gated Linear Attention

LA缺乏softmax的选择性，表达能力不足，因此Gating机制尤为关键。

Sparse Attention

最近的工作趋向于做软硬件协同设计。

Discussion

线性注意力与稀疏注意力是高效长上下文的两条路径。稀疏在细粒度回溯 上更强，但需保存全量 KV cache 以做选择，因此在推理效率上往往不如仅维护** 常量状态的线性模型；且稀疏仅做 信息选择**，其表达上限仍受全注意力约束。相反，** 线性注意力遵循“ 压缩即智能**”的理念：用** 定长状态实现泛化；结合 ** Delta 学习规则，其表达能力在理论上可更强。尽管线性注意力常被批评** 检索性弱**，但可通过** 状态扩展等技术缓解。需要指出，线性注意力仍受 硬件实现与推理基础设施限制。我们的工作用 ** Kimi Linear（与 ** vLLM** 集成）弥补这一点：与全注意力基线竞争，在 100 万 token 的上下文上实现** >2×** 的解码加速。两条路径并非互斥，未来可探索** 线性 × 稀疏的混合模型：既利用线性的 压缩与泛化**，又吸收稀疏的** 精细检索**，进一步提升性能与效率。

7.2 Hybrid Model

Intra Layer or Inter Layer

Discussion

近来的结果显示，混合模型对 RoPE 基频调整可能敏感，从而使扩展上下文窗口变得困难。为应对此问题，趋势转向引入 NoPE：例如 Falcon-H采用极高基频（如 $b \approx 1 0^{11}$ ）把位置编码推向近似 NoPE；SwanGPT 在架构上交错 RoPE-based 层与 NoPE-based 全注意力层。与此方向一致，我们发现将 KDA 层与 NoPE 全注意力混合也是一种高效方案，可更直接地扩展上下文窗口。

8. Conclusion

我们提出 Kimi Linear ：一种满足智能体与推理时扩展（test-time scaling）需求、且不牺牲质量的混合线性注意力 架构。其核心 KDA 是带** 按通道门控的高级线性注意力模块，增强了记忆控制，并在混合架构中激活了 RNN 风格模型的潜力。通过以 ** 3:1 的比例交错 ** KDA 与全局注意力**，Kimi Linear 将** 内存占用降低至最多 75%，在解码吞吐上实现 最高 6.3×** 的提升，并** 超越全注意力基线。我们开源了 ** KDA 内核与** 预训练检查点**，为后续研究提供可扩展、高效的 LLM 方案。

Kimi Linear: An Expressive, Efficient Attention Architecture

1. Intro

2. Preliminary

2.1. Notation

Chunk-wise Formulation

Decay Formulation

2.2. Linear Attention and the Gated Delta Rule

Linear Attention as Online Learning

DeltaNet: Onlinen Gradient Descent on Reconstruction Loss

Gated DeltaNet as Weight Decay

3. Kimi Delta Attention: Improving Delta Rule with Fine-grained Gating

3.1. Hardware-Efficient Chunkwise Algorithm

WY Representation

UT Transform

3.2. Efficient Analysis

4. The Kimi Linear Model Architecture

Neural Parameterization

Hybrid model architecture

No Position Encoding (NoPE) for MLA Layers

5. Experiments

5.1. Synthetic tests

5.2. Ablation on Key Components of Kimi Linear

5.3. Scaling Law of Kimi Linear

5.4. Experimental Setup

Kimi Linear and baseline settings

Benchmarks

5.4.1. Pretraining recipe

5.4.2. Post-training recipe

5.5. Main results

5.5.1. Kimi Linear@1.4T results

5.6. Efficiency Comparison

6. Discussions

6.1. Kimi Delta Attentino as learnable positin embeddings

6.2. Relation to DPLR

6.3. 复杂度分析

7. Related Works

7.1. Efficient Subquadratic Attention

Linear Attention

Gated Linear Attention

Sparse Attention

Discussion

7.2 Hybrid Model

Discussion

8. Conclusion