這兩年,大家對大模型已經不再停留在“技術演示多酷炫”,而是越來越現實地問一句:
“為什麼模型看起來很強,但真要放進我們自己的業務裏,用起來總差點意思?
尤其是——明明接入了私域知識庫,效果還是不穩定?”
答案往往不在某一個“神技”,而是在你怎麼 同時使用 Prompt、RAG 和微調,以及它們和業務的“耦合深度”。
先釐清三個“槓桿”:Prompt、基座模型和私域數據
當一個任務效果不達預期,核心問題其實只有三個:
● Prompt 寫得不對 / 不完整
● 基座模型本身能力不夠
● 任務本質上需要“學會你的業務”——也就是微調**
很多團隊一上來就糾結“要不要微調”,但順序應該是:
● 先確認:任務能不能通過 Prompt 工程 + RAG + CoT 跑起來?
● 再判斷:是不是已經快到上限,繼續調 Prompt 收益很低?
● 最後才是:要不要把經驗沉澱成微調數據、做一個“懂你的模型”
一、如何判斷:現在還是 Prompt 問題,還是已經接近能力上限?
比起拍腦袋説“要微調了”,更靠譜的方法是做一輪 系統性評估。
1、做一個“Prompt 梯度測試”
不要用一個 Prompt 打天下,也不要憑一兩次問答就判死刑。
可以設計一個由淺到深的版本階梯,在同一批評測樣本上跑通:
版本 A:最小可用版
只定義一個角色:“你是一名嚴謹的風控專員 / 客服專家 / 投研分析師……”
加一條簡短指令:“請根據下面的內容回答問題。”
版本 B:加示例(Few-shot)
選 3–5 條“業務認可的好答案”當作示範,如:“歷史客服工單裏挑出:問題 → 理想回復”
版本 C:加“過程引導”
強調思考步驟:
“請先判斷用户意圖,再判斷情緒,然後給出處理建議…”
“請先列出推理過程,再給出最終結論。”
版本 D:加“格式與約束”
限制輸出結構:
“請返回一個 JSON,對象包含 intent、emotion、action 三個字段。”
“每條建議後面請附上一條『為什麼這麼做』的簡短説明。”
然後,針對同一批測試數據,看幾件事:
● 準確率 有沒有明顯一路往上走?
● 輸出穩定性(格式、字段完整性)是不是越來越好?
● 在版本 D 時,效果**是否已經“很難再提升”**了?
如果從 A 到 D,正確率能從 50% 提到 80% 甚至更高,説明 Prompt 工程還有不少空間,此時微調不是第一優先級。
但如果你發現:
無論怎麼加示例、怎麼拉長指令、怎麼引導步驟,指標就是卡在一個水平上上不去,
尤其是在你已經把業務側能想到的“好例子”都喂進去之後——
👉這往往意味着:要再上一個台階,靠 Prompt 已經不夠了。
是時候思考:“要不要讓模型直接學習這些高質量示例本身?”
2、確認:是模型“真的不會”,還是你“沒問到點子上”
有些任務,表面看是模型答不出來,其實是我們沒有把問題問到“模型已掌握知識”的座標系裏。一個簡單的診斷套路是做“知識探測”。
第一步:問概念
“你瞭解信用卡分期手續費的計算規則嗎?”
“你知道什麼是項目 IRR / NPV 嗎?”
如果模型能説出一個八九不離十的定義,説明 相關知識並不是完全缺失的。
第二步:問實戰
“下面是某張信用卡的分期條款,請幫我算出用户選擇 12 期時的總利息支出。”
“下面是一條投資項目現金流,請根據你剛提到的 NPV 公式,給出決策建議。”
如果你看到的現象是:
講概念還行,一到實戰就經常漏算、錯算、忽視邊界條件。
👉説明問題通常不在“模型沒這方面知識”,而在於:
● 任務拆解不夠清晰
● 指令沒把約束條件説具體
● 測試數據裏隱藏了太多“人類默認常識”,但沒寫在 Prompt 裏
這種情況,比起“換模型”或“上微調”,更優先的其實是 繼續打磨 Prompt 和任務定義。
3、做一輪多模型對比,再決定是“換基座”還是“教會現有模型”
在確認 Prompt 和任務描述都比較到位之後,可以做一輪橫向對比:
● 用同一套指令 + 同一批測試樣本
● 在不同類型的模型上跑:自家部署的開源基座/雲上的商用大模型 API/以及你未來可能考慮遷移的候選模型
典型結論有兩種:
所有模型都表現掙扎
大概率是:任務本身定義不合理,或者你的評估標準跟輸入信息之間存在“信息不對稱”(期待模型憑空知道一些沒給的信息)
👉此時,與其換模型,不如回到業務側重新梳理:
● 模型到底拿到哪些信息?
● 你希望它根據哪些信號做判斷?
強模型能做得不錯,目標基座明顯拉胯
👉這説明確實存在能力 gap,選擇就變成:
● 咬咬牙直接切換到更強的基座;
● 保留現有基座,用強模型輸出來“帶教”,在自家模型上做一輪 SFT / 蒸餾式微調。
現實裏,對很多已經完成部署、打通權限、評估過合規的企業來説,頻繁換底層基座的成本非常高——
這也是為什麼越來越多團隊會走一條折中路線:用更強的模型當 “Teacher”,批量產生高質量答案 / 打分信號,然後在自己的基座模型上做一次“有老師帶的微調”。這麼做的好處是:
● 一方面,保持了現有架構不被推倒重來;
● 另一方面,又能借助強模型的能力上限,把你的目標模型“扶一把”,逐步逼近你已經見過的最佳表現。
二、RAG:讓模型“現查現用”的外腦,而不是萬能鑰匙
當你把內網知識庫、合同文檔、項目報告接進來,其實就是在做某種形式的 RAG(檢索增強生成)。你可以把 RAG 想象成一位 非常勤奮的外包顧問。
它自己不必記住你所有東西,但可以隨時去翻:
● 最新規章制度
● 更新後的產品手冊
● 客户往來記錄、歷史項目等
它的優勢在於:上手快、更新快、有明確溯源
● 政策一變、文檔一更新,下一次回答就能用到最新內容
● 對需要“説明來源”、“引用原文”的場景特別友好
但天然短板也很明顯:它始終是個“外人”
● 能找到哪一條合同條款寫了什麼
● 卻未必理解你們過去在類似條款上是怎麼博弈、怎麼決策的
它給出的答案往往是:
● “通用大模型的理解” + “你知識庫裏的原文片段”
● 專業度確實比純通用模型高,但離“像你資深員工那樣説話”還差一截
現實一點地説:RAG 非常適合解決“缺知識”和“知識變化快”的問題,讓 AI 變成一個“隨時翻檔案的外腦”;但要讓 AI 真正帶上你公司的“思維方式”,往往還需要別的手段協同。
三、微調:從“懂行”到“懂你”的那一步
如果説 RAG 是外部知識的延伸,那微調更像是 把你的業務基因烤進模型本身。
在微調中,你會用成體系的私域數據去“再教育”一個基礎大模型,例如:
● 歷史項目報告 & 覆盤文檔
● 標註過的客户案例、投研報告、分析框架
● 標準話術、風格統一的高質量輸出
模型在這個過程中學到的,不只是“知識”,還有:
● 你們公司慣用的 分析路徑
● 你們行業特有的 專業表達
● 你所在團隊的 風險偏好與話語風格
最終得到的,是一種“老員工型 AI”:
● 不僅能做“法律問答”,還能“説出你們律所的味道”;
● 不僅能寫“財務分析報告”,還能用你團隊習慣的結構與邏輯;
● 不僅能回答“能不能做”,還能主動補上“我們過往類似項目是怎麼做的、要注意什麼”。
從技術角度看,微調並不是一上來就要“重構一切”,而是解決兩類典型問題:
● Prompt / RAG 怎麼調都穩定不了的模式性偏差
● 你希望 AI 不用每次都看完整上下文,也能天然按你那一套思路説話和判斷
同時,對於很多對隱私和合規敏感的行業,“訓練過程和推理全在本地” 也是選擇微調的重要原因之一。
四、RAG 還是微調?關鍵是你要 AI 和業務“綁定到什麼程度”
簡單給一個直觀的對比視角:
更適合優先用 RAG 的情況:
● 業務知識更新快、變動頻繁: 政策解讀、產品説明書、最新流程…
● 需要明確引用來源: 回答裏要能指明“來自哪一條文檔、哪一段條款”
● 主要訴求是“查得對、找得到”: 類似於智能檢索 + 解釋説明
在這種場景下,AI 更像一個:隨時查資料的外部顧問,把“知識廣度”問題解決好即可。
更適合考慮加入微調的情況:
● 你希望 AI 能夠復刻資深員工的決策模式: 審合同看到的風險點、分析項目時的優先級排序、撰寫方案時的表達框架與側重點……
● 你已經有了一批高質量、可複用的歷史成果: 這些內容不是“隨便寫寫”,而是你業務能力的結晶
● 你開始在乎: 輸出的風格統一度、多團隊之間的經驗共享效率、新人培養成本能不能被 AI 分擔一部分
在這裏,AI 不再只是一個“問答工具”,而是:把專家經驗數字化、規模化複製的載體。
RAG 和微調不是對立面,而是 兩條可以疊加的路徑:
● 用 RAG 確保“知識永遠是最新的”
● 用微調把“經驗、風格、判斷邏輯”烤進模型
● 再用好的 Prompt 設計把兩者“調度”起來
五、從“先能用”到“更好用”:為什麼要提前準備一條微調路徑?
對大多數企業來説,一個相對健康的迭代節奏可能是:
第 1 階段:先跑起來
● 選定一個合適的基座模型
● 用 Prompt + RAG 搭出可用 Demo
● 跑一輪真實業務,收集典型問題 & 錯誤樣本
第 2 階段:用評估體系把問題看清楚
● 有一套自動 / 半自動評測腳本
● 不同 Prompt 策略、不同模型版本效果一目瞭然
● 能迅速定位:哪些是知識缺失、哪些是邏輯問題、哪些是風格不統一
第 3 階段:順勢進入小規模微調試點
● 把業務方已經認可的“好答案”轉成訓練數據
● 用一套標準化的微調平台,快速試幾個版本
● 用同一套評測體系,確認“確實變好,沒有把別的能力搞壞”
第 4 階段:把微調變成“日常化能力”
● 新的項目經驗、標註數據不斷沉澱
● 微調從“一次性大工程”,變成“持續迭代的產品能力”
在這個路徑下,你不需要在一開始就高調宣稱“我們要重度微調”,而是先通過 Prompt / RAG 把 ROI 見到眼前,一邊運行一邊積累高質量樣本,當數據和需求都成熟時,自然而然開啓微調。
也正是在這一步,一套把“評估 → 數據 → 訓練 → 回滾”串起來的平台會非常關鍵:
● 它不會替代 Prompt 和 RAG 的價值
● 但能讓你在需要更進一步時,有一條隨時可以走的專業化升級通道
我們現在在做的,就是這樣一類微調產品LLaMA-Factory Online: 幫團隊把“自動評測、樣本管理、一鍵微調、版本對比和回滾”打通,讓業務方只需要繼續做他們最擅長的事——指出什麼是“好答案”、哪些是“典型錯例”,剩下的交給平台,把這些經驗真正變成一個“懂你業務”的模型。
六、大模型的“下半場”:從拼參數到煉數據
● Prompt 決定了你“怎麼跟模型説話”
● RAG 讓模型“隨時查得到你最新的知識”
● 微調則負責那一步:讓模型真正長出你企業的業務習慣和判斷邏輯
在大模型的“下半場”,拼的已經不是誰的參數更多,而是誰能更好地把 私域數據的深度,轉化為 AI 的 專業度、穩定性和可複製性。
你完全可以從“只用 Prompt + RAG”開始,但在設計整體路線圖時,不妨提前問自己一句:當我們真的需要一個“像老員工一樣的 AI”時,我們是不是已經準備好一條,能隨時把經驗烤進模型的微調路徑?如果你已經走到“需要一條微調路徑”的階段,其實沒必要從零啃代碼、自己搭訓練流水線。
因為,LLaMA-Factory Online 做的事情,就是把這條路鋪平:在一個界面裏完成數據管理、訓練配置、監控評估和版本回滾,支持主流開源大模型(如 LLaMA、Qwen、Yi、Gemma 等),也覆蓋 SFT、DPO 等多種微調範式和 LoRA / QLoRA 等輕量方案,讓團隊可以零基礎上手、快速跑完一輪小規模試點,用數據説話,看一眼微調前後的對比,再決定要不要在這條路上繼續加碼。