大模型推理階段的計算優化:投機解碼的馬爾可夫決策過程 引言 在大語言模型(LLM)時代,推理階段的計算效率已成為制約其廣泛應用的關鍵瓶頸。傳統的自迴歸解碼方式雖然簡單可靠,但其串行生成特性嚴重限制了推理速度。投機解碼(Speculative Decoding)作為一種創新的推理加速技術,通過"推測-驗證"的並行化範式,在保證生成質量的前提下顯著提升推理效率。本文將深入