[]()##微調最難的地方,從來不是“學不會”,而是“跑不起來”
如果你是第一次接觸大模型微調,很可能已經經歷過這樣一個階段。你看過不少文章,也刷過不少視頻,大致知道什麼是 SFT、LoRA,知道微調是“拿數據繼續訓練模型”。從概念上看,這件事並不複雜,甚至有點“理所當然”。但真到你自己動手的時候,事情就開始變得不對勁了:環境裝不好,數據不知道該怎麼準備,模型跑是跑了但你完全不知道它在幹嘛,loss 在降但你不確定這是不是好事,訓練完了模型卻“感覺沒變”。這時候你會產生一種非常強烈的挫敗感:是不是我哪裏理解錯了,是不是微調本身就很玄學?後來你會慢慢發現一個事實:微調真正難的地方,不是算法,而是“第一次把整個鏈路跑通”。只要你成功跑通一次,後面的事情都會順很多,但第一次之前,幾乎所有人都會在同樣的地方摔倒。

在開始之前:你要先想清楚“為什麼要微調”
很多人開始微調,只是因為“大家都在微調”“不用微調好像就不專業”“感覺模型效果還不夠好”。這些理由都很模糊,而模糊的目標,幾乎一定會帶來失敗的微調。你第一次跑微調之前,至少要能回答一個問題:我希望模型哪一類行為發生變化?注意,是“行為”,不是“能力”。如果你的期待是模型突然懂了很多新知識、能回答之前完全不會的問題,那你大概率會失望。第一次微調更現實、也更容易成功的目標,通常是:回答格式更穩定、語氣更符合預期、更少胡説、更像你給的示例。你把這一步想清楚,後面至少能少走一半彎路。
第一次微調,最容易犯的第一個錯:數據一上來就搞很複雜
我見過太多第一次做微調的人,一開始就把事情想得特別“大”:要準備幾萬條數據,要設計複雜的指令模板,要覆蓋儘可能多的場景。結果往往是數據還沒準備好,人已經被拖垮了。第一次微調,數據越簡單越好——不是説數據質量不重要,而是你現在的目標不是“效果最好”,而是“確認這套流程是通的”。這個階段,一百條、兩百條非常清晰的指令數據,價值遠遠高於一萬條雜亂無章的數據。什麼叫清晰?就是你自己一眼能看出來:哦,我就是想讓模型學會這樣回答。你自己都要反覆讀幾遍才能理解數據在教什麼,那模型大概率也學不好。
SFT 並不是“教知識”,而是“教説話方式”
很多人潛意識裏會把微調理解成“補課”:模型不知道的,我通過微調教給它。但在絕大多數 SFT 場景裏,模型並不是“不會”,而是“不會按你想要的方式來”。你給的數據,本質上是在示範:遇到這種問題應該用什麼結構回答,重點放在哪裏,哪些話該説哪些話不該説。這也是為什麼同樣的知識,用不同寫法做 SFT,效果會差很多。第一次跑微調時,我非常建議你刻意讓數據“風格統一”。不要追求覆蓋面,先追求一致性。
第一次跑通微調,環境和工程複雜度是最大攔路虎
説實話,這一部分是勸退新手最多的地方。顯卡、CUDA、依賴、版本衝突……這些東西和“微調是不是有價值”沒有任何關係,卻能直接把你攔在門外。如果你是第一次做微調,我真心不建議你一上來就把全部精力砸在本地環境上。不是因為本地不重要,而是因為你現在最缺的不是算力,而是信心和判斷力。你需要的是儘快看到:原來微調跑起來之後,模型真的會變。

從“想微調”到“跑通微調”的最小閉環流程圖
在這個階段,用 LLaMA-Factory online 這類方式先把 SFT 的完整流程跑通,其實非常合適。它能幫你繞開大量環境和工程細節,把注意力放在數據和效果本身上。
微調過程中,loss 在降 ≠ 微調一定成功
你一跑訓練,看見 loss 在穩定下降,心裏會很踏實。但等你拿模型去測試,卻發現效果好像沒什麼變化,甚至更怪了。這時候不要急着懷疑人生。你要記住:loss 只是“模型在擬合數據”,不是“模型變好”的證明。尤其在數據量很小的情況下,模型很容易快速記住你的示例,但這種“記住”不一定會泛化到真實輸入。第一次微調,更重要的是你要學會看輸出,而不是看指標。哪怕只是拿十個你很熟悉的問題,對比微調前後的輸出,只要你能清楚地説出:這裏確實更像我想要的了,那這次微調就不是失敗的。
一個非常關鍵的判斷:什麼時候該停,而不是繼續訓
第一次微調時,還有一個特別容易犯的錯誤:覺得“再多訓一點會更好”。這是非常危險的直覺。很多模型在微調初期確實會快速朝着你給的示例靠攏,但如果你繼續加訓練步數,很容易出現過擬合,表現為:回答開始變得刻意,稍微換個問法就不對勁,輸出越來越像“背例子”。第一次微調,我給自己的一個硬規則是:只要我已經能明顯看出變化,就先停。哪怕效果還不完美,也比“訓壞了”要好得多。
跑通一次微調後,你真正該覆盤的不是“效果”,而是“流程”
當你第一次完整跑通一次微調,無論效果好壞,其實都已經完成了一件很重要的事情。你現在至少應該清楚:數據是怎麼被模型讀進去的,訓練過程大概長什麼樣,哪些地方改一點就會影響結果,哪些地方其實沒那麼重要。這比“這次效果到底好不好”要重要得多,因為從這一刻開始,你已經不再是“只會看別人寫微調文章的人”,而是一個真正跑過完整鏈路的人。用 LLaMA-Factory online 這類方式先把 SFT 的完整流程跑通,其實非常合適。它能幫你繞開大量環境和工程細節,把注意力放在數據和效果本身上。

一次微調覆盤清單圖
在你不斷嘗試、對比不同數據和配置時,能快速反覆驗證思路的方式,會比一次性把工程做得很重更適合早期階段。
總結:第一次微調的成功標準,只有一個
不是指標多好,不是效果多驚豔,不是能不能直接上線,而是:你能不能清楚地説出,這次微調到底改變了模型的什麼行為。只要你能做到這一點,你就已經真正邁進了“微調這扇門”。後面再談 LoRA、再談 PPO、再談效果評估,那些都是進階問題。第一步永遠是:先跑通一次,再談優化。