博客 / 列表

AI算法專家李智華 - deepseek-r1-distill-qwen-32B 模型技術過程——做了SFT

DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 團隊通過“知識蒸餾”(Knowledge Distillation)技術創造出來的。 簡單來説,它的誕生過程並非像傳統的“從零訓練”或單純的“繼續預訓練”,而是**“大號學霸(DeepSeek-R1)手把手教小號(Qwen-32B)做題”**的過程。 以下是其核心

sed , 強化學習 , 數據 , 前端開發 , Javascript