博客 / 列表

小殊小殊 - 【論文筆記】大型語言模型的知識蒸餾與數據集蒸餾

目錄 寫在前面 一、知識蒸餾(KD):讓大模型當老師,小模型當學生 1.怎麼教?軟標籤與推理過程一起學 2.多老師合作與自我學習 二、數據集蒸餾(DD):把萬噸數據壓縮成一勺精華 1.兩種核心方法 2.智能數據篩選 三、KD+DD組合拳:實戰中的高效搭配 四、未來挑戰:瘦身不能丟“靈魂”

數據集 , 論文閲讀 , 數據 , 人工智能 , 深度學習 , jquery , 前端開發