小模型訓練效率狂飆 100 倍，Thinking Machine 推“在線策略蒸餾” - News Detail

AI 新鋭團隊Thinking Machine 近日發佈突破性訓練方法——在線策略蒸餾（On-Policy Distillation），讓小模型在特定任務上的訓練效率提升高達50至100倍。

傳統AI訓練長期面臨兩難:強化學習讓模型在試錯中自主探索，靈活但低效；監督微調直接提供標準答案，高效卻僵化。而在線策略蒸餾巧妙融合二者——如同為學生模型配備一位“實時教練”：學生在自主生成內容的同時，由強大教師模型對其每一步輸出進行動態評分與引導，通過最小化兩者之間的KL散度，實現精準、穩定的知識遷移。

這一機制不僅避免了傳統蒸餾中“只學結果、不學過程”的弊端，還有效防止模型“走捷徑”或過擬合，顯著提升泛化能力。

在數學推理任務中，研究團隊僅用原強化學習方法1/7到1/10的訓練步數，就讓8B小模型達到接近32B大模型的性能水平，整體計算成本降低高達兩個數量級。這意味着，資源有限的中小企業或研究團隊，也能高效訓練出媲美巨頭的專業模型。

更關鍵的是，該方法成功破解了企業AI落地中的“災難性遺忘”難題。在一項企業助理實驗中，模型在學習新業務知識的同時，完整保留了原有對話與工具調用能力——這為持續迭代的行業AI系統提供了可行路徑。

該研究由Kevin Lu主導，他曾在OpenAI領導多個關鍵項目，如今作為Thinking Machine核心成員，將大模型訓練的前沿經驗反哺於高效小模型生態。其團隊認為，在AI走向垂直化、場景化的今天，“小而專”的模型才是商業落地的主力，而在線策略蒸餾正是打通這一路徑的關鍵引擎。