tag Soft

標籤
貢獻2
10
05:07 AM · Dec 25 ,2025

@Soft / 博客 RSS 訂閱

爛漫樹林 - MMoE論文筆記

moe(混合專家模型) 作為一種基於 Transformer 架構的模型,混合專家模型主要由兩個關鍵部分組成: 稀疏 MoE 層: 這些層代替了傳統 Transformer 模型中的前饋網絡 (FFN) 層。MoE 層包含若干“專家”(例如 8 個),每個專家本身是一個獨立的神經網絡。在實際應用中,這些專家通常是前饋網絡 (FFN),但它們也可以是更復雜的網

數據 , Soft , 加載 , 後端開發 , Python

收藏 評論

雲端創新者 - 自研AI框架升思MindSpore數據變換:Transforms_Yeats

下圖展示了ViT的完整架構:從輸入圖像分割成patches,到Transformer編碼器處理,最後通過分類頭輸出結果。整個流程清晰明瞭,接下來我們一步步來實現。 1 環境搭建和數據準備 1.1 環境配置 首先確保本地裝好了Python和MindSpore。這個教程建議用GPU跑,CPU會慢得讓人懷疑人生。 數據集用的是ImageNet的子集,第一

華為 , Soft , Self , 人工智能 , transformer , 前端開發 , Javascript

收藏 評論