小模型訓練效率狂飆 100 倍,Thinking Machine 推“在線策略蒸餾” - News Detail

AI 新鋭團隊Thinking Machine 近日發佈突破性訓練方法——在線策略蒸餾(On-Policy Distillation),讓小模型在特定任務上的訓練效率提升高達50至100倍。

傳統AI訓練長期面臨兩難:強化學習讓模型在試錯中自主探索,靈活但低效;監督微調直接提供標準答案,高效卻僵化。而在線策略蒸餾巧妙融合二者——如同為學生模型配備一位“實時教練”:學生在自主生成內容的同時,由強大教師模型對其每一步輸出進行動態評分與引導,通過最小化兩者之間的KL散度,實現精準、穩定的知識遷移。

這一機制不僅避免了傳統蒸餾中“只學結果、不學過程”的弊端,還有效防止模型“走捷徑”或過擬合,顯著提升泛化能力。

在數學推理任務中,研究團隊僅用原強化學習方法1/7到1/10的訓練步數,就讓8B小模型達到接近32B大模型的性能水平,整體計算成本降低高達兩個數量級。這意味着,資源有限的中小企業或研究團隊,也能高效訓練出媲美巨頭的專業模型。

更關鍵的是,該方法成功破解了企業AI落地中的“災難性遺忘”難題。在一項企業助理實驗中,模型在學習新業務知識的同時,完整保留了原有對話與工具調用能力——這為持續迭代的行業AI系統提供了可行路徑。

該研究由Kevin Lu主導,他曾在OpenAI領導多個關鍵項目,如今作為Thinking Machine核心成員,將大模型訓練的前沿經驗反哺於高效小模型生態。其團隊認為,在AI走向垂直化、場景化的今天,“小而專”的模型才是商業落地的主力,而在線策略蒸餾正是打通這一路徑的關鍵引擎。