量化精度的組合方式,A 是激活 (Activation),W 是權重 (Weight),後面的數字是“多少 bit”。 A8W8 是什麼? A8W8 = 激活 8bit,權重 8bit • A8:前向推理時,每一層算完的中間結果(activation)用 8bit 表示 • W8:模型參數(weight)也用 8bit 存儲