wx6466f25322644 博客

RSS 訂閱已追隨我

wx6466f25322644 博客

博客 / 詳情

大語言模型Ll M 這張圖的核心信息是：隨着模型規模變大，注意力（attention）層消耗的 FLOPs 佔比越來越高，而 MLP 層佔比反而下降。

03:07 PM · Dec 17 ,2025

這張圖的核心信息是：隨着模型規模變大，注意力（attention）層消耗的 FLOPs 佔比越來越高，而 MLP 層佔比反而下降。

一、FLOPs 是什麼？
FLOPs（Floating Point Operations）是浮點運算次數，衡量模型計算量的單位。FLOPs 越高，訓練或推理所需的計算資源越多。

二、圖中數據解讀（從左到右，模型從小到大）

模型大小總 FLOPs MLP（FFN）佔比注意力（MHA）佔比
760M 4.3E+15 44% 14.8%
1.3B 1.3E+16 51% 12.7%
2.7B 2.5E+16 56% 11.2%
6.7B 1.1E+17 65% 8.1%
13B 4.1E+17 69% 6.9%
30B 9.0E+17 74% 5.3%
66B 9.5E+17 77% 4.3%
175B 2.4E+18 80% 3.3%

三、關鍵結論（圖中紅字翻譯）
“如果你只看小模型，會覺得 MLP 是計算瓶頸；但大模型裏，attention 才是吞算力的主角。”
為什麼？
• Attention 的 FLOPs 隨序列長度 L 呈平方增長（O(L²)）
• MLP 的 FLOPs 只隨 L 線性增長（O(L)）
所以：
• 小模型（短序列）時，MLP 佔比高；
• 大模型（長序列）時，attention 的平方複雜度開始主導，哪怕它的佔比數字看起來小，其實是因為總計算量太大，分母變大顯得比例小。

四、總結一句話
優化 attention 層（比如用 FlashAttention、稀疏注意力、線性注意力）在大模型時代比優化 MLP 更划算。

複雜度 , 數據 , 浮點運算 , 後端開發 , 人工智能 , Python

0 位用戶收藏了這個故事！