當 AI 落地到了“深水區”：到底是 Prompt 不行、RAG 不夠，還是該考慮微調了？詳情 - 數據,回滾,迭代,llama,AIGC 架構師李哲博客

這兩年，大家對大模型已經不再停留在“技術演示多酷炫”，而是越來越現實地問一句：

“為什麼模型看起來很強，但真要放進我們自己的業務裏，用起來總差點意思？

尤其是——明明接入了私域知識庫，效果還是不穩定？”

答案往往不在某一個“神技”，而是在你怎麼同時使用 Prompt、RAG 和微調，以及它們和業務的“耦合深度”。

先釐清三個“槓桿”：Prompt、基座模型和私域數據

當一個任務效果不達預期，核心問題其實只有三個：

● Prompt 寫得不對 / 不完整

● 基座模型本身能力不夠

● 任務本質上需要“學會你的業務”——也就是微調**

很多團隊一上來就糾結“要不要微調”，但順序應該是：

● 先確認：任務能不能通過 Prompt 工程 + RAG + CoT 跑起來？

● 再判斷：是不是已經快到上限，繼續調 Prompt 收益很低？

● 最後才是：要不要把經驗沉澱成微調數據、做一個“懂你的模型”

一、如何判斷：現在還是 Prompt 問題，還是已經接近能力上限？

比起拍腦袋説“要微調了”，更靠譜的方法是做一輪系統性評估。

1、做一個“Prompt 梯度測試”

不要用一個 Prompt 打天下，也不要憑一兩次問答就判死刑。

可以設計一個由淺到深的版本階梯，在同一批評測樣本上跑通：

版本 A：最小可用版

只定義一個角色：“你是一名嚴謹的風控專員 / 客服專家 / 投研分析師……”

加一條簡短指令：“請根據下面的內容回答問題。”

版本 B：加示例（Few-shot）

選 3–5 條“業務認可的好答案”當作示範，如：“歷史客服工單裏挑出：問題 → 理想回復”

版本 C：加“過程引導”

強調思考步驟：

“請先判斷用户意圖，再判斷情緒，然後給出處理建議…”

“請先列出推理過程，再給出最終結論。”

版本 D：加“格式與約束”

限制輸出結構：

“請返回一個 JSON，對象包含 intent、emotion、action 三個字段。”

“每條建議後面請附上一條『為什麼這麼做』的簡短説明。”

然後，針對同一批測試數據，看幾件事：

● 準確率 有沒有明顯一路往上走？

● 輸出穩定性（格式、字段完整性）是不是越來越好？

● 在版本 D 時，效果**是否已經“很難再提升”**了？

如果從 A 到 D，正確率能從 50% 提到 80% 甚至更高，説明 Prompt 工程還有不少空間，此時微調不是第一優先級。

但如果你發現：

無論怎麼加示例、怎麼拉長指令、怎麼引導步驟，指標就是卡在一個水平上上不去，

尤其是在你已經把業務側能想到的“好例子”都喂進去之後——

👉這往往意味着：要再上一個台階，靠 Prompt 已經不夠了。

是時候思考：“要不要讓模型直接學習這些高質量示例本身？”

2、確認：是模型“真的不會”，還是你“沒問到點子上”

有些任務，表面看是模型答不出來，其實是我們沒有把問題問到“模型已掌握知識”的座標系裏。一個簡單的診斷套路是做“知識探測”。

第一步：問概念

“你瞭解信用卡分期手續費的計算規則嗎？”

“你知道什麼是項目 IRR / NPV 嗎？”

如果模型能説出一個八九不離十的定義，説明相關知識並不是完全缺失的。

第二步：問實戰

“下面是某張信用卡的分期條款，請幫我算出用户選擇 12 期時的總利息支出。”

“下面是一條投資項目現金流，請根據你剛提到的 NPV 公式，給出決策建議。”

如果你看到的現象是：

講概念還行，一到實戰就經常漏算、錯算、忽視邊界條件。

👉説明問題通常不在“模型沒這方面知識”，而在於：

● 任務拆解不夠清晰

● 指令沒把約束條件説具體

● 測試數據裏隱藏了太多“人類默認常識”，但沒寫在 Prompt 裏

這種情況，比起“換模型”或“上微調”，更優先的其實是繼續打磨 Prompt 和任務定義。

3、做一輪多模型對比，再決定是“換基座”還是“教會現有模型”

在確認 Prompt 和任務描述都比較到位之後，可以做一輪橫向對比：

● 用同一套指令 + 同一批測試樣本

● 在不同類型的模型上跑：自家部署的開源基座/雲上的商用大模型 API/以及你未來可能考慮遷移的候選模型

典型結論有兩種：

所有模型都表現掙扎

大概率是：任務本身定義不合理，或者你的評估標準跟輸入信息之間存在“信息不對稱”（期待模型憑空知道一些沒給的信息）

👉此時，與其換模型，不如回到業務側重新梳理：

● 模型到底拿到哪些信息？

● 你希望它根據哪些信號做判斷？

強模型能做得不錯，目標基座明顯拉胯

👉這説明確實存在能力 gap，選擇就變成：

● 咬咬牙直接切換到更強的基座；

● 保留現有基座，用強模型輸出來“帶教”，在自家模型上做一輪 SFT / 蒸餾式微調。

現實裏，對很多已經完成部署、打通權限、評估過合規的企業來説，頻繁換底層基座的成本非常高——

這也是為什麼越來越多團隊會走一條折中路線：用更強的模型當 “Teacher”，批量產生高質量答案 / 打分信號，然後在自己的基座模型上做一次“有老師帶的微調”。這麼做的好處是：

● 一方面，保持了現有架構不被推倒重來；

● 另一方面，又能借助強模型的能力上限，把你的目標模型“扶一把”，逐步逼近你已經見過的最佳表現。

二、RAG：讓模型“現查現用”的外腦，而不是萬能鑰匙

當你把內網知識庫、合同文檔、項目報告接進來，其實就是在做某種形式的 RAG（檢索增強生成）。你可以把 RAG 想象成一位非常勤奮的外包顧問。

它自己不必記住你所有東西，但可以隨時去翻：

● 最新規章制度

● 更新後的產品手冊

● 客户往來記錄、歷史項目等

它的優勢在於：上手快、更新快、有明確溯源

● 政策一變、文檔一更新，下一次回答就能用到最新內容

● 對需要“説明來源”、“引用原文”的場景特別友好

但天然短板也很明顯：它始終是個“外人”

● 能找到哪一條合同條款寫了什麼

● 卻未必理解你們過去在類似條款上是怎麼博弈、怎麼決策的

它給出的答案往往是：

● “通用大模型的理解” + “你知識庫裏的原文片段”

● 專業度確實比純通用模型高，但離“像你資深員工那樣説話”還差一截

現實一點地説：RAG 非常適合解決“缺知識”和“知識變化快”的問題，讓 AI 變成一個“隨時翻檔案的外腦”；但要讓 AI 真正帶上你公司的“思維方式”，往往還需要別的手段協同。

三、微調：從“懂行”到“懂你”的那一步

如果説 RAG 是外部知識的延伸，那微調更像是把你的業務基因烤進模型本身。

在微調中，你會用成體系的私域數據去“再教育”一個基礎大模型，例如：

● 歷史項目報告 & 覆盤文檔

● 標註過的客户案例、投研報告、分析框架

● 標準話術、風格統一的高質量輸出

模型在這個過程中學到的，不只是“知識”，還有：

● 你們公司慣用的分析路徑

● 你們行業特有的專業表達

● 你所在團隊的風險偏好與話語風格

最終得到的，是一種“老員工型 AI”：

● 不僅能做“法律問答”，還能“説出你們律所的味道”；

● 不僅能寫“財務分析報告”，還能用你團隊習慣的結構與邏輯；

● 不僅能回答“能不能做”，還能主動補上“我們過往類似項目是怎麼做的、要注意什麼”。

從技術角度看，微調並不是一上來就要“重構一切”，而是解決兩類典型問題：

● Prompt / RAG 怎麼調都穩定不了的模式性偏差

● 你希望 AI 不用每次都看完整上下文，也能天然按你那一套思路説話和判斷

同時，對於很多對隱私和合規敏感的行業，“訓練過程和推理全在本地” 也是選擇微調的重要原因之一。

四、RAG 還是微調？關鍵是你要 AI 和業務“綁定到什麼程度”

簡單給一個直觀的對比視角：

更適合優先用 RAG 的情況：

● 業務知識更新快、變動頻繁： 政策解讀、產品説明書、最新流程…

● 需要明確引用來源： 回答裏要能指明“來自哪一條文檔、哪一段條款”

● 主要訴求是“查得對、找得到”： 類似於智能檢索 + 解釋説明

在這種場景下，AI 更像一個：隨時查資料的外部顧問，把“知識廣度”問題解決好即可。

更適合考慮加入微調的情況：

● 你希望 AI 能夠復刻資深員工的決策模式： 審合同看到的風險點、分析項目時的優先級排序、撰寫方案時的表達框架與側重點……

● 你已經有了一批高質量、可複用的歷史成果： 這些內容不是“隨便寫寫”，而是你業務能力的結晶

● 你開始在乎： 輸出的風格統一度、多團隊之間的經驗共享效率、新人培養成本能不能被 AI 分擔一部分

在這裏，AI 不再只是一個“問答工具”，而是：把專家經驗數字化、規模化複製的載體。

RAG 和微調不是對立面，而是兩條可以疊加的路徑：

● 用 RAG 確保“知識永遠是最新的”

● 用微調把“經驗、風格、判斷邏輯”烤進模型

● 再用好的 Prompt 設計把兩者“調度”起來

五、從“先能用”到“更好用”：為什麼要提前準備一條微調路徑？

對大多數企業來説，一個相對健康的迭代節奏可能是：

第 1 階段：先跑起來

● 選定一個合適的基座模型

● 用 Prompt + RAG 搭出可用 Demo

● 跑一輪真實業務，收集典型問題 & 錯誤樣本

第 2 階段：用評估體系把問題看清楚

● 有一套自動 / 半自動評測腳本

● 不同 Prompt 策略、不同模型版本效果一目瞭然

● 能迅速定位：哪些是知識缺失、哪些是邏輯問題、哪些是風格不統一

第 3 階段：順勢進入小規模微調試點

● 把業務方已經認可的“好答案”轉成訓練數據

● 用一套標準化的微調平台，快速試幾個版本

● 用同一套評測體系，確認“確實變好，沒有把別的能力搞壞”

第 4 階段：把微調變成“日常化能力”

● 新的項目經驗、標註數據不斷沉澱

● 微調從“一次性大工程”，變成“持續迭代的產品能力”

在這個路徑下，你不需要在一開始就高調宣稱“我們要重度微調”，而是先通過 Prompt / RAG 把 ROI 見到眼前，一邊運行一邊積累高質量樣本，當數據和需求都成熟時，自然而然開啓微調。

也正是在這一步，一套把“評估 → 數據 → 訓練 → 回滾”串起來的平台會非常關鍵：

● 它不會替代 Prompt 和 RAG 的價值

● 但能讓你在需要更進一步時，有一條隨時可以走的專業化升級通道

我們現在在做的，就是這樣一類微調產品LLaMA-Factory Online： 幫團隊把“自動評測、樣本管理、一鍵微調、版本對比和回滾”打通，讓業務方只需要繼續做他們最擅長的事——指出什麼是“好答案”、哪些是“典型錯例”，剩下的交給平台，把這些經驗真正變成一個“懂你業務”的模型。

六、大模型的“下半場”：從拼參數到煉數據

● Prompt 決定了你“怎麼跟模型説話”

● RAG 讓模型“隨時查得到你最新的知識”

● 微調則負責那一步：讓模型真正長出你企業的業務習慣和判斷邏輯

在大模型的“下半場”，拼的已經不是誰的參數更多，而是誰能更好地把私域數據的深度，轉化為 AI 的專業度、穩定性和可複製性。

你完全可以從“只用 Prompt + RAG”開始，但在設計整體路線圖時，不妨提前問自己一句：當我們真的需要一個“像老員工一樣的 AI”時，我們是不是已經準備好一條，能隨時把經驗烤進模型的微調路徑？如果你已經走到“需要一條微調路徑”的階段，其實沒必要從零啃代碼、自己搭訓練流水線。

因為，LLaMA-Factory Online 做的事情，就是把這條路鋪平：在一個界面裏完成數據管理、訓練配置、監控評估和版本回滾，支持主流開源大模型（如 LLaMA、Qwen、Yi、Gemma 等），也覆蓋 SFT、DPO 等多種微調範式和 LoRA / QLoRA 等輕量方案，讓團隊可以零基礎上手、快速跑完一輪小規模試點，用數據説話，看一眼微調前後的對比，再決定要不要在這條路上繼續加碼。

架構師李哲博客

架構師李哲博客

博客 / 詳情