1 背景
推薦場景大模型在國內的使用很早,早在 10 年前甚至更早,百度已經用上了自研的大規模分佈式的 parameter server 系統結合上游自研的 worker 來實現 TB 級別的萬億參數的稀疏模型。後來,各家平台也陸續基於這種方案,開發了自己的分佈式訓練系統,普遍特點是大量使用 id embedding,因此參數量巨大,模型大小也非常誇張。當然,隨着開源訓練工具 TensorFlow/Pytorch 的流行,使用 TensorFlow/Pytorch 作為 worker,結合自研 ps 的方案也十分流行。究其原因,以 TensorFlow 為例,雖然內置了分佈式訓練系統,但是對於大規模 id embedding 的支持卻非常糟糕,無法作為完整的平台使用。而使用 TensorFlow+ 自研 ps 的方案也存在不少問題,比如自研 ps 一般對於特徵輸入都有特定的要求、二次開發成本比較高等。
完整內容請點擊下方鏈接查看:
https://developer.aliyun.com/article/1200344?utm_content=g_10...
版權聲明:本文內容由阿里雲實名註冊用户自發貢獻,版權歸原作者所有,阿里雲開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用户服務協議》和《阿里雲開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。