這張圖的核心信息是:隨着模型規模變大,注意力(attention)層消耗的 FLOPs 佔比越來越高,而 MLP 層佔比反而下降。 一、FLOPs 是什麼? FLOPs(Floating Point Operations)是浮點運算次數,衡量模型計算量的單位。FLOPs 越高,訓練或推理所需的計算資源越多。 二、圖中數據解讀