2025 年是大模型推理技術發展的關鍵之年。自年初 DeepSeek R1 發佈引發全民關注以來,推理框架加速需求暴漲,推理優化的戰場驟然升温。以 vLLM、SGLang、MindIE 為代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底層加速庫不斷突破性能瓶頸,相比年初,部分前沿框架的推理性能提升已達 3 到 4 倍以上。 隨着 Agent