目錄 寫在前面 一、什麼是MoE 二、MoE 的優勢 1. 參數量巨大但計算量幾乎不變 2. 專家自動分工,能力更豐富(專精化) 3. 訓練效率高 4. 擴展性極強(Scalability) 5. 專家之間天然並行(Parallelism-friendly) 三、MoE 為什麼會變慢? 1. Router 造成額外計算與