moe(混合專家模型) 作為一種基於 Transformer 架構的模型,混合專家模型主要由兩個關鍵部分組成: 稀疏 MoE 層: 這些層代替了傳統 Transformer 模型中的前饋網絡 (FFN) 層。MoE 層包含若干“專家”(例如 8 個),每個專家本身是一個獨立的神經網絡。在實際應用中,這些專家通常是前饋網絡 (FFN),但它們也可以是更復雜的網
下圖展示了ViT的完整架構:從輸入圖像分割成patches,到Transformer編碼器處理,最後通過分類頭輸出結果。整個流程清晰明瞭,接下來我們一步步來實現。 1 環境搭建和數據準備 1.1 環境配置 首先確保本地裝好了Python和MindSpore。這個教程建議用GPU跑,CPU會慢得讓人懷疑人生。 數據集用的是ImageNet的子集,第一