導讀 在大模型推理邁向“智能體時代”的今天,KVCache 已從性能優化手段升級為系統級基礎設施,“顯存內緩存”模式在長上下文、多輪交互等場景下難以為繼,而“以存代算”的多級 KVCache 架構雖突破了容量瓶頸,卻引入了一個由模型結構、硬件平台、推理引擎與緩存策略等因素交織而成的高維配置空間。如何在滿足 SLO(如延遲、吞吐等服務等級目標)的前提下,找到“時延