Kimi Linear：1M tokens下6倍解码效率的线性模型-育师

导语：月之暗面（Moonshot AI）发布Kimi Linear混合线性注意力架构，通过创新的Kimi Delta Attention机制，在100万tokens超长上下文下实现6倍解码加速，同时降低75%KV缓存需求，重新定义大模型长文本处理效率。

【免费下载链接】Kimi-Linear-48B-A3B-Instruct项目地址: https://ai.gitcode.com/MoonshotAI/Kimi-Linear-48B-A3B-Instruct

行业现状：长上下文处理的效率瓶颈

随着大语言模型应用场景的不断深化，从法律文档分析、代码库理解到学术论文综述，对超长文本处理能力的需求日益迫切。传统基于Transformer的大模型采用全注意力机制，其计算复杂度随序列长度呈平方级增长，在处理超过10万tokens的文本时，不仅面临严重的内存瓶颈，解码速度也大幅下降，成为制约大模型实用化的关键障碍。市场调研显示，当前企业级长文本处理场景中，硬件成本和时间延迟已成为用户满意度的两大核心痛点。

模型亮点：混合架构解决效率与性能难题

Kimi Linear的核心突破在于创新性的混合架构设计。该模型采用480亿总参数量，通过A3B（Activated 3B）技术仅激活30亿参数进行计算，在保持模型能力的同时显著降低硬件负载。其核心创新Kimi Delta Attention（KDA）机制，通过改进的门控Delta规则，优化有限状态RNN内存的使用效率，实现了线性复杂度的注意力计算。

如上图所示，该架构图展示了Kimi Linear的混合注意力设计，其中Kimi Delta Attention与全局MLA（混合线性注意力）以3:1的比例协同工作。这种结构在减少内存占用的同时，通过精细的门控机制确保了注意力质量不逊于传统全注意力模型。

在性能表现上，Kimi Linear展现出跨场景的优越性。官方测试数据显示，在12.8万tokens的RULER基准测试中，模型实现了3.98倍的速度提升，同时保持84.3的高分；而在100万tokens的极限场景下，解码吞吐量达到传统方法的6.3倍。

(a)On MMLU-Pro (4k context length), Kimi Linear achieves 51.0 performance with similar speed as full attention. On RULER (128k context length), it shows Pareto-optimal performance (84.3) and 3.98x speedup.(b)Kimi Linear achieves 6.3x faster TPOT compared to MLA, offering significant speedups at long sequence lengths (1M tokens).

从图中可以看出，左侧子图(a)对比了不同上下文长度下的性能与速度，Kimi Linear在短上下文（4k tokens）保持与全注意力相当的性能，在长上下文（128k tokens）则实现性能与速度的双赢。右侧子图(b)则直观展示了在100万tokens场景下，Kimi Linear相比MLA（混合线性注意力）将每输出token时间（TPOT）降低6.3倍，验证了其在超长文本处理中的革命性效率提升。

除了基础模型外，月之暗面还发布了经过5.7万亿tokens训练的指令微调版本（Kimi-Linear-Instruct），专门优化对话交互场景，进一步降低企业部署门槛。

行业影响：重新定义长文本处理经济学

Kimi Linear的推出将对大模型应用生态产生深远影响。对于硬件成本敏感的中小企业，75%的KV缓存减少意味着可以用更低配置的GPU集群处理相同规模的长文本任务，显著降低AI基础设施投入。在实际应用中，法律行业的合同审查时间可从小时级缩短至分钟级，科研机构处理文献综述的效率提升近10倍。

该技术的开源策略（包括KDA内核和模型权重）将加速线性注意力技术的标准化进程。月之暗面已将KDA实现贡献至Flash Linear Attention（FLA）开源项目，推动整个社区在长上下文处理领域的技术进步。行业分析师预测，Kimi Linear所展示的效率提升，可能促使大模型从"参数竞赛"转向"效率竞赛"，推动行业向更可持续的方向发展。