大模型玩家七七博客

Jan 28 2026

大模型玩家七七 - 智能客服不是問答機器人，微調更不是“多訓點數據”

大多數“智能客服失敗”，不是模型不行，而是期望錯了如果你做過或接觸過智能客服項目，大概率會經歷一個相似的心理過程：一開始覺得： “現在大模型這麼強，客服這種問答場景，不是正好對口嗎？” 然後你會很快發現現實是：問題很雜規則很多灰度極多一句話答錯，後果可能很嚴重最後，團隊往往會把希望寄託在一件事上： “那我們給模型微調一下吧。” 而真正的問題是—— 你往往

AI

Jan 28 2026

大模型玩家七七 - 向量數據庫實戰：從“看起來能用”到“真的能用”，中間隔着一堆坑

大多數向量數據庫項目，不是“失敗”，而是“半死不活” 如果你問一個已經上線向量數據庫的團隊： “你們的向量檢索效果怎麼樣？” 得到的回答往往是： “還行吧，有時候挺準” “大部分時候能用，但偶爾很怪” “不好説，反正模型有時候答得不對” 這類系統，通常不是完全不能用，但也很少讓人真正放心。原因並不在於向量數據庫“不成熟”，而在於：從建庫到穩定可用，中間有一整段工程

軟件設計

Jan 27 2026

大模型玩家七七 - 為什麼你用了向量數據庫，系統反而更復雜了

向量數據庫火，不代表你“必須用” 如果你這兩年做過和大模型相關的系統，很難繞開“向量數據庫”這個詞。幾乎所有 RAG 架構圖裏，都有它的位置。幾乎所有教程裏，都在説： “把文檔向量化，存進向量數據庫，就好了。” 於是，向量數據庫很自然地從一個解決特定問題的工具，變成了一種默認選項。但如果你真的做過幾個項目，就會慢慢意識到一件事：向量數據庫確實很強，但它從

AI

Jan 27 2026

大模型玩家七七 - PPO 微調的本質：它不是在教模型“更聰明”

PPO 難，不是因為算法複雜，而是因為它在幹一件反直覺的事如果你第一次接觸 PPO 微調，大概率會有一種強烈的挫敗感。你可能已經：看過 PPO 的算法圖看過 reward / value / policy 的關係甚至跑過一次訓練但只要你認真問自己一個問題： “PPO 到底在改模型的哪一部分？” 你很可能説不清楚。你只知道： reward 在漲 loss 在變

AI

Jan 27 2026

大模型玩家七七 - RAG 的失敗，大多在“切文檔”那一刻就已經註定

很多 RAG 項目，在“切文檔”這一步就已經失敗了如果你認真覆盤過幾個 RAG 項目，會發現一個非常殘酷、但又極其真實的現象。很多 RAG 系統：架構看起來沒問題模型選型也不差 embedding、向量庫、prompt 都配置齊全但效果始終“説不上來哪裏對”。而當你真正把檢索出來的 chunk 拿出來，自己一條一條讀的時候，你往往會冒出一句話： “這切的是什麼玩意

AI

Jan 26 2026

大模型玩家七七 - RAG 不是萬能解，這些場景你一開始就不該用

RAG 最常見的失敗，並不是“沒效果”，而是“用錯地方” 如果你觀察過一段時間大模型落地項目，會發現一個非常有意思的現象。很多團隊做 RAG，並不是因為認真分析過需求，而是因為： “大家都在用 RAG。” 於是 RAG 成了一種默認選項：有知識問題 → RAG 模型不懂 → RAG 業務效果不好 → 再加一層 RAG 結果就是：系統越來越

AI

Jan 26 2026

大模型玩家七七 - RAG 效果差，80% 的問題和模型無關

當你開始懷疑模型的時候，問題往往已經被帶偏了如果你真的在項目裏落地過 RAG（Retrieval-Augmented Generation），你大概率經歷過下面這個過程。一開始，你很有信心。 Embedding 模型選了主流的，向量庫也搭好了， Prompt 看起來也挺專業。但一測效果，你開始皺眉。有些問題明明“庫裏有”，模型卻答不出來有些答案看起來很像“胡説”

AI

Jan 26 2026

大模型玩家七七 - 微調與安全隱私：為什麼微調會放大風險

安全問題，往往不是在“上線那一刻”出現的如果你做過幾次大模型微調項目，很可能有一種錯覺。項目初期，一切看起來都很安全。數據在內網，模型在內網，訪問有權限控制，甚至你可能會想： “我們又不是直接對外提供服務，哪來的安全風險？” 但很多隱私和安全問題，並不是在模型“上線”那一刻才出現的。它們更像是被慢慢埋進模型參數裏的定時炸彈。等你意識到問題的時候，往往已經很難回頭

AI

Jan 24 2026

大模型玩家七七 - 數據集不是“越多越好”：微調裏最容易被誤解的一件事

當你開始懷疑“是不是數據還不夠多”的時候，事情往往已經不對了如果你做過大模型微調，很可能經歷過這樣一個心理過程。一開始，你對效果還有信心。模型確實發生了一些變化，雖然不完美，但方向看起來是對的。然後你開始測試更多問題。有些好，有些不太好，還有些開始變得奇怪。這時候，一個幾乎是條件反射式的念頭就會冒出來： “是不是數據還不夠多？” 於是你開始繼續收集數據。多抓一點日誌

AI

Jan 24 2026

大模型玩家七七 - 微調顯存總爆炸？問題往往不在你以為的地方

顯存不夠，幾乎是每個微調項目的“入場儀式” 如果你做過大模型微調，那“顯存不夠”這四個字，你幾乎不可能陌生。第一次跑，直接 OOM。換個 batch size，再 OOM。開 bf16，還是不夠。關掉一些東西，終於能跑了，但速度慢得離譜。很多人會在這個階段得出一個結論： “是我顯卡不行。” 但當你真的開始拆解顯存使用之後，你會發現一個非常反直覺的事實：大多數顯存

AI

Jan 24 2026

大模型玩家七七 - 評估，才是微調裏最反直覺的部分

訓練跑通了，並不意味着你“完成了微調” 如果你已經做過幾次大模型微調，很可能會有一種奇怪的感覺。訓練這件事，其實沒那麼難。數據準備好，參數配一配，模型一跑，loss 往下走，看起來一切都很正常。只要環境不炸，顯存夠用，大多數人都能把訓練流程跑完。但等你真正停下來，準備回答一個問題時，事情就開始變得不那麼確定了。 “這次微調，到底算不算成功？” 模型是不是更好了？好在哪裏？

AI

Jan 23 2026

大模型玩家七七 - 為什麼 loss 幾乎沒用：微調裏最容易讓人“自嗨”的指標

loss 是怎麼一步步“騙”過工程師的如果你做過大模型微調，幾乎一定經歷過這樣一個時刻。訓練剛跑起來，你盯着屏幕上的 loss 曲線，看着它從一個比較高的值，慢慢、穩定地往下走。曲線很平滑，沒有劇烈抖動，看起來一切都很健康。這時候你心裏往往會產生一種非常強烈的安全感： “這次應該穩了。” 但等你真正拿模型去測試時，問題就來了。模型回答好像沒什麼變化有時候甚至更奇怪了你很難説

AI

Jan 23 2026

大模型玩家七七 - 從 0 到跑通一次微調：別急着追效果，先讓它“真的動起來”

[]()##微調最難的地方，從來不是“學不會”，而是“跑不起來” 如果你是第一次接觸大模型微調，很可能已經經歷過這樣一個階段。你看過不少文章，也刷過不少視頻，大致知道什麼是 SFT、LoRA，知道微調是“拿數據繼續訓練模型”。從概念上看，這件事並不複雜，甚至有點“理所當然”。但真到你自己動手的時候，事情就開始變得不對勁了：環境裝不好，數據不知道該怎麼準備，模型跑是跑了但你完全不知道它在幹嘛，

AI

Jan 22 2026

大模型玩家七七 - 客服大模型 ≠ 問答機器人

為什麼很多客服大模型，看起來很聰明，卻一點也不好用如果你做過客服相關的項目，大概率會經歷一個非常相似的過程。一開始，大家都很興奮。把歷史客服文檔、FAQ、知識庫一股腦丟進 RAG，接上一個看起來很強的模型，測試時效果還不錯。大多數常見問題都能答上來，語氣也挺自然，看起來“已經能替代人工了”。但只要一上線，問題就開始接連出現。模型開始亂承諾模型開始“過度熱情” 模型在不

AI

Jan 22 2026

大模型玩家七七 - RAG 為什麼總是“看起來能用，實際不好用”？

RAG 真正讓人頭疼的地方，從來不是“搭不起來” 如果你已經做過一段時間 RAG，大概率會有一種非常熟悉的感覺：系統是能跑的，流程也是完整的，embedding 用的也不差，向量庫、召回、rerank 該有的都有，但整體效果始終差點意思。有時候是召回的內容看起來“擦邊”，有時候是答案明明就在文檔裏，模型卻像沒看到，還有時候，模型引用了一堆內容，但就是沒真正解決用户的問題。

後端

Jan 22 2026

大模型玩家七七 - 你以為 PPO 很高級，其實它更像個“微調旋鈕”

為什麼 PPO 在真實業務裏越來越重要如果你是從論文或者課程裏接觸 PPO 的，那大概率會有一種“這東西看起來很厲害”的感覺。策略梯度、clip、KL 約束、reward model，一整套體系下來，很容易讓人產生錯覺：只要把 PPO 跑起來，大模型就能被“精細打磨”。但真正進到業務裏，你會發現情況完全不是這麼回事。大多數業務方找你，並不是因為模型“不會回答”，而是因為模型“回答得讓人不放心

AI

Jan 21 2026

大模型玩家七七 - PPO 為何成了大模型微調“最後的底牌”？一篇真正能跑通的工程實戰指南

PPO 為何成了大模型微調“最後的底牌”？一篇真正能跑通的工程實戰指南開篇：無數大模型，是怎麼被「一行 PPO 參數」訓廢的如果你真正做過大模型微調，大概率經歷過這些瞬間： reward 曲線一路狂飆，但模型開始胡説八道模型突然學會“拍馬屁”，卻忘了基本常識微調前還能正常回答，微調後像換了個“性格” 很多工程師第一次做 RLHF，都會天真地以為： reward 提升 = 模型變好

後端

Jan 21 2026

大模型玩家七七 - 向量數據庫技術內核：從存儲到檢索，拆解其高效運作的秘密

向量數據庫技術內核：從存儲到檢索，拆解其高效運作的秘密寫在前面：我也是“被向量數據庫名詞轟炸”過的人説實話，我第一次接觸向量數據庫的時候，是有點抗拒的。那會兒各種文章都在説：向量數據庫是 AI 時代的“新型基礎設施” 沒有向量數據庫，大模型就跑不起來它徹底改變了傳統數據庫的範式結果我真正打開文檔一看，全是： embedding ANN IVF HNSW PQ

AI

Jan 21 2026

大模型玩家七七 - 從零開始：PPO 微調大模型實戰（基於 PyTorch）

從零開始：PPO 微調大模型實戰（基於 PyTorch） PPO 真正難的，不是算法本身如果你已經看過一些 PPO 的原理文章，大概率會有過這種感覺：好像每個字都認識，但真讓我自己寫代碼，腦子還是一片空白。這其實挺正常的。至少我第一次準備動手寫 PPO 的時候，也是這種狀態。問題不在你，而在 PPO 本身。在論文裏，PPO 看起來是一個乾淨利落的算法；但一旦落到工程裏，它

AI

Jan 20 2026

大模型玩家七七 - RAG 選型避坑：5 種主流方案對比，輕量場景 vs 大規模場景怎麼選？

RAG 選型避坑：5 種主流方案對比，輕量場景 vs 大規模場景怎麼選？ RAG選型核心邏輯，避開90%團隊踩過的坑最近和多家企業的AI技術負責人深度交流，發現一個共性痛點：RAG（檢索增強生成）作為解決大模型“知識過期”“幻覺”的核心技術，80%的團隊都在選型上栽了跟頭——要麼用輕量方案硬扛大規模數據，導致檢索延遲飆升至3秒以上；要麼用複雜方案給小場景做“過度設計”，服務器成本翻倍卻沒提升效果

軟件設計

Jan 20 2026

大模型玩家七七 - 10 萬文檔 RAG 落地實戰：從 Demo 到生產，我踩過的所有坑

10 萬文檔 RAG 落地實戰：從 Demo 到生產，我踩過的所有坑引言：RAG 為什麼在企業級場景“必選但難用” 在過去一年裏，RAG（Retrieval-Augmented Generation）幾乎成了企業落地大模型的標準配置。原因很簡單：企業數據高度私有，無法直接丟給大模型訓練業務知識更新頻繁，微調成本高、週期長需要“可控、可解釋、可追溯”的回答來源但當你真的把 RA

AI

Jan 19 2026

大模型玩家七七 - 大模型微調評測入門：看懂這些指標，才知道模型好不好

大模型微調評測入門：看懂這些指標，才知道模型好不好從“瞎評”到“精準評”：大模型微調核心評測指標全拆解大家好，我是七七！最近後台收到很多粉絲的共性提問：“我用LoRA微調了Llama 2 7B模型做情感分析，怎麼判斷它好不好用？”“微調後的文案生成模型，憑感覺比原版好，但是怎麼證明？” 這其實戳中了大模型微調的一個核心痛點——很多新手只關注“怎麼調”，卻忽略了“怎麼評”。不少人微調完模型，僅

AI

Jan 19 2026

大模型玩家七七 - 民用卡 vs 專業卡 vs 雲 GPU：大模型微調該選哪種？

民用卡 vs 專業卡 vs 雲 GPU：大模型微調該選哪種？大模型微調 GPU 選型無優劣，核心是場景與成本的精準適配大家好，我是七七！最近後台收到的GPU選型問題快堆成山了：學生黨問“16G民用卡能不能微調7B模型”，小團隊糾結“買專業卡還是租雲GPU”，企業負責人困惑“大規模微調該配多少張專業卡集羣”。其實三類GPU沒有絕對的“好壞”，只有“適配與否”。之前幫一個跨境電商小團隊選型，他

AI

Jan 19 2026

大模型玩家七七 - 顯存不夠？16G顯卡駕馭13B模型的計算與優化全指南

顯存不夠？16G顯卡駕馭13B模型的計算與優化全指南低顯存逆襲，16G 顯卡駕馭 13B 模型的核心邏輯大家好，我是七七！之前收到很多粉絲私信，核心痛點就一個：手裏只有16G顯卡，想微調13B模型提升效果，可要麼算錯顯存盲目下載後直接OOM（顯存溢出），要麼覺得“16G肯定不夠”直接放棄，眼睜睜看着別人用13B模型做出更優效果。其實16G顯卡跑13B模型不是“天方夜譚”，關鍵在於兩點：一是

後端

大模型玩家七七博客

博客 / 列表

大模型玩家七七 - 智能客服不是問答機器人，微調更不是“多訓點數據”

大模型玩家七七 - 向量數據庫實戰：從“看起來能用”到“真的能用”，中間隔着一堆坑

大模型玩家七七 - 為什麼你用了向量數據庫，系統反而更復雜了

大模型玩家七七 - PPO 微調的本質：它不是在教模型“更聰明”

大模型玩家七七 - RAG 的失敗，大多在“切文檔”那一刻就已經註定

大模型玩家七七 - RAG 不是萬能解，這些場景你一開始就不該用

大模型玩家七七 - RAG 效果差，80% 的問題和模型無關

大模型玩家七七 - 微調與安全隱私：為什麼微調會放大風險

大模型玩家七七 - 數據集不是“越多越好”：微調裏最容易被誤解的一件事

大模型玩家七七 - 微調顯存總爆炸？問題往往不在你以為的地方

大模型玩家七七 - 評估，才是微調裏最反直覺的部分

大模型玩家七七 - 為什麼 loss 幾乎沒用：微調裏最容易讓人“自嗨”的指標

大模型玩家七七 - 從 0 到跑通一次微調：別急着追效果，先讓它“真的動起來”

大模型玩家七七 - 客服大模型 ≠ 問答機器人

大模型玩家七七 - RAG 為什麼總是“看起來能用，實際不好用”？

大模型玩家七七 - 你以為 PPO 很高級，其實它更像個“微調旋鈕”

大模型玩家七七 - PPO 為何成了大模型微調“最後的底牌”？一篇真正能跑通的工程實戰指南

大模型玩家七七 - 向量數據庫技術內核：從存儲到檢索，拆解其高效運作的秘密

大模型玩家七七 - 從零開始：PPO 微調大模型實戰（基於 PyTorch）

大模型玩家七七 - RAG 選型避坑：5 種主流方案對比，輕量場景 vs 大規模場景怎麼選？

大模型玩家七七 - 10 萬文檔 RAG 落地實戰：從 Demo 到生產，我踩過的所有坑

大模型玩家七七 - 大模型微調評測入門：看懂這些指標，才知道模型好不好

大模型玩家七七 - 民用卡 vs 專業卡 vs 雲 GPU：大模型微調該選哪種？

大模型玩家七七 - 顯存不夠？16G顯卡駕馭13B模型的計算與優化全指南

Product

Company

Support

Company