PageAttention原理分析 Page Attention也是一種優化方法(區別於MLA,page attention是對內存進行分配管理)。參考論文[1]中描述,對於KV-cache存在3個問題: 1、預留浪費 (Reserved):為將來可能的 token 預留的空間,這些空間被保留但暫未使用,其他請求無法使用這些預留空間; 2、內部內存碎片化問題(internal