月之暗面發佈混合線性注意力架構:Kimi Linear - 新闻 详情

月之暗面發佈了名為“Kimi Linear”的混合線性注意力架構,據稱在短距離、長距離及強化學習(RL)等多種擴展場景中均優於傳統全注意力方法。其核心是Kimi Delta Attention(KDA)——這是Gated DeltaNet的優化版本,引入了更高效的門控機制以優化有限狀態RNN記憶的使用。

Kimi Linear由3份Kimi Delta Attention(KDA)和1份全局MLA組成。KDA是對Gated DeltaNet的改進,通過細粒度門控來壓縮有限狀態RNN的記憶。

官方表示,在1M token場景下,KV cache佔用下降了75%,解碼吞吐量最高提升6倍,TPOT相對MLA加速6.3倍。

Kimi Linear 技術報告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf