博客 / 詳情

返回

NeurIPS 2025 Spotlight|還在為KV緩存爆炸苦惱?清華團隊重新設計注意力

論文名稱:Tensor Product Attention Is All You Need

發佈時間:2025年10月23日

👉一鍵直達論文

👉一鍵直達Github

👉Lab4AI大模型實驗室論文閲讀

✨研究背景

大型語言模型在處理長輸入序列時面臨顯著的計算和內存挑戰,主要瓶頸在於自迴歸解碼過程中鍵值(KV)緩存的內存開銷隨序列長度線性增長。現有方法如稀疏注意力、多查詢注意力(MQA)、分組查詢注意力(GQA)等雖能部分緩解問題,但存在性能下降、架構修改複雜或與旋轉位置編碼(RoPE)兼容性差等侷限性。

✨研究目的

本文提出一種新型注意力機制——張量積注意力(TPA),旨在通過張量分解對查詢、鍵和值進行上下文低秩表示,顯著減少推理時的KV緩存大小,同時提升模型性能,並保持與RoPE的天然兼容性。

✨ 核心貢獻

  • 提出TPA機制:通過上下文張量分解實現Q、K、V的緊湊表示,相比標準注意力機制將KV緩存減少10倍以上,且性能優於MHA、MQA、GQA和MLA。
  • 統一現有注意力機制:揭示MHA、MQA和GQA均為TPA的非上下文特例。
  • 引入T6架構:基於TPA的新Transformer模型,在語言建模任務中驗證其有效性。
  • 無縫集成RoPE:TPA可直接替換現有模型(如LLaMA、Gemma)中的多頭注意力層。

✨總結與展望

TPA通過張量分解提供了一種高效且表達力強的注意力機制,顯著降低了長序列處理的內存需求,同時提升模型性能。未來工作可進一步探索高階張量分解、硬件優化及更廣泛的應用場景。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.