這張圖的核心信息是:隨着模型規模變大,注意力(attention)層消耗的 FLOPs 佔比越來越高,而 MLP 層佔比反而下降。

一、FLOPs 是什麼?
FLOPs(Floating Point Operations)是浮點運算次數,衡量模型計算量的單位。FLOPs 越高,訓練或推理所需的計算資源越多。

二、圖中數據解讀(從左到右,模型從小到大)

模型大小 總 FLOPs MLP(FFN)佔比 注意力(MHA)佔比
760M 4.3E+15 44% 14.8%
1.3B 1.3E+16 51% 12.7%
2.7B 2.5E+16 56% 11.2%
6.7B 1.1E+17 65% 8.1%
13B 4.1E+17 69% 6.9%
30B 9.0E+17 74% 5.3%
66B 9.5E+17 77% 4.3%
175B 2.4E+18 80% 3.3%

三、關鍵結論(圖中紅字翻譯)
“如果你只看小模型,會覺得 MLP 是計算瓶頸;但大模型裏,attention 才是吞算力的主角。”
為什麼?
• Attention 的 FLOPs 隨序列長度 L 呈平方增長(O(L²))
• MLP 的 FLOPs 只隨 L 線性增長(O(L))
所以:
• 小模型(短序列)時,MLP 佔比高;
• 大模型(長序列)時,attention 的平方複雜度開始主導,哪怕它的佔比數字看起來小,其實是因為總計算量太大,分母變大顯得比例小。

四、總結一句話
優化 attention 層(比如用 FlashAttention、稀疏注意力、線性注意力)在大模型時代比優化 MLP 更划算。