博客 / 列表

大模型玩家七七 - 智能客服不是問答機器人,微調更不是“多訓點數據”

大多數“智能客服失敗”,不是模型不行,而是期望錯了 如果你做過或接觸過智能客服項目,大概率會經歷一個相似的心理過程: 一開始覺得: “現在大模型這麼強,客服這種問答場景,不是正好對口嗎?” 然後你會很快發現現實是: 問題很雜 規則很多 灰度極多 一句話答錯,後果可能很嚴重 最後,團隊往往會把希望寄託在一件事上: “那我們給模型微調一下吧。” 而真正的問題是—— 你往往

AI

大模型玩家七七 - 向量數據庫實戰:從“看起來能用”到“真的能用”,中間隔着一堆坑

大多數向量數據庫項目,不是“失敗”,而是“半死不活” 如果你問一個已經上線向量數據庫的團隊: “你們的向量檢索效果怎麼樣?” 得到的回答往往是: “還行吧,有時候挺準” “大部分時候能用,但偶爾很怪” “不好説,反正模型有時候答得不對” 這類系統,通常不是完全不能用, 但也很少讓人真正放心。 原因並不在於向量數據庫“不成熟”, 而在於:從建庫到穩定可用,中間有一整段工程

軟件設計

大模型玩家七七 - 為什麼你用了向量數據庫,系統反而更復雜了

向量數據庫火,不代表你“必須用” 如果你這兩年做過和大模型相關的系統,很難繞開“向量數據庫”這個詞。 幾乎所有 RAG 架構圖裏,都有它的位置。 幾乎所有教程裏,都在説: “把文檔向量化,存進向量數據庫,就好了。” 於是,向量數據庫很自然地從一個解決特定問題的工具, 變成了一種默認選項。 但如果你真的做過幾個項目,就會慢慢意識到一件事: 向量數據庫確實很強, 但它從

AI

大模型玩家七七 - PPO 微調的本質:它不是在教模型“更聰明”

PPO 難,不是因為算法複雜,而是因為它在幹一件反直覺的事 如果你第一次接觸 PPO 微調,大概率會有一種強烈的挫敗感。 你可能已經: 看過 PPO 的算法圖 看過 reward / value / policy 的關係 甚至跑過一次訓練 但只要你認真問自己一個問題: “PPO 到底在改模型的哪一部分?” 你很可能説不清楚。 你只知道: reward 在漲 loss 在變

AI

大模型玩家七七 - RAG 的失敗,大多在“切文檔”那一刻就已經註定

很多 RAG 項目,在“切文檔”這一步就已經失敗了 如果你認真覆盤過幾個 RAG 項目,會發現一個非常殘酷、但又極其真實的現象。 很多 RAG 系統: 架構看起來沒問題 模型選型也不差 embedding、向量庫、prompt 都配置齊全 但效果始終“説不上來哪裏對”。 而當你真正把檢索出來的 chunk 拿出來,自己一條一條讀的時候, 你往往會冒出一句話: “這切的是什麼玩意

AI

大模型玩家七七 - RAG 不是萬能解,這些場景你一開始就不該用

RAG 最常見的失敗,並不是“沒效果”,而是“用錯地方” 如果你觀察過一段時間大模型落地項目,會發現一個非常有意思的現象。 很多團隊做 RAG,並不是因為認真分析過需求, 而是因為: “大家都在用 RAG。” 於是 RAG 成了一種默認選項: 有知識問題 → RAG 模型不懂 → RAG 業務效果不好 → 再加一層 RAG 結果就是: 系統越來越

AI

大模型玩家七七 - RAG 效果差,80% 的問題和模型無關

當你開始懷疑模型的時候,問題往往已經被帶偏了 如果你真的在項目裏落地過 RAG(Retrieval-Augmented Generation),你大概率經歷過下面這個過程。 一開始,你很有信心。 Embedding 模型選了主流的, 向量庫也搭好了, Prompt 看起來也挺專業。 但一測效果,你開始皺眉。 有些問題明明“庫裏有”,模型卻答不出來 有些答案看起來很像“胡説”

AI

大模型玩家七七 - 微調與安全隱私:為什麼微調會放大風險

安全問題,往往不是在“上線那一刻”出現的 如果你做過幾次大模型微調項目,很可能有一種錯覺。 項目初期,一切看起來都很安全。 數據在內網,模型在內網,訪問有權限控制, 甚至你可能會想: “我們又不是直接對外提供服務,哪來的安全風險?” 但很多隱私和安全問題,並不是在模型“上線”那一刻才出現的。 它們更像是被慢慢埋進模型參數裏的定時炸彈。 等你意識到問題的時候,往往已經很難回頭

AI

大模型玩家七七 - 數據集不是“越多越好”:微調裏最容易被誤解的一件事

當你開始懷疑“是不是數據還不夠多”的時候,事情往往已經不對了 如果你做過大模型微調,很可能經歷過這樣一個心理過程。 一開始,你對效果還有信心。 模型確實發生了一些變化,雖然不完美,但方向看起來是對的。 然後你開始測試更多問題。 有些好,有些不太好,還有些開始變得奇怪。 這時候,一個幾乎是條件反射式的念頭就會冒出來: “是不是數據還不夠多?” 於是你開始繼續收集數據。 多抓一點日誌

AI

大模型玩家七七 - 微調顯存總爆炸?問題往往不在你以為的地方

顯存不夠,幾乎是每個微調項目的“入場儀式” 如果你做過大模型微調,那“顯存不夠”這四個字,你幾乎不可能陌生。 第一次跑,直接 OOM。 換個 batch size,再 OOM。 開 bf16,還是不夠。 關掉一些東西,終於能跑了,但速度慢得離譜。 很多人會在這個階段得出一個結論: “是我顯卡不行。” 但當你真的開始拆解顯存使用之後,你會發現一個非常反直覺的事實: 大多數顯存

AI

大模型玩家七七 - 評估,才是微調裏最反直覺的部分

訓練跑通了,並不意味着你“完成了微調” 如果你已經做過幾次大模型微調,很可能會有一種奇怪的感覺。 訓練這件事,其實沒那麼難。 數據準備好,參數配一配,模型一跑,loss 往下走,看起來一切都很正常。只要環境不炸,顯存夠用,大多數人都能把訓練流程跑完。 但等你真正停下來,準備回答一個問題時,事情就開始變得不那麼確定了。 “這次微調,到底算不算成功?” 模型是不是更好了? 好在哪裏?

AI

大模型玩家七七 - 為什麼 loss 幾乎沒用:微調裏最容易讓人“自嗨”的指標

loss 是怎麼一步步“騙”過工程師的 如果你做過大模型微調,幾乎一定經歷過這樣一個時刻。 訓練剛跑起來,你盯着屏幕上的 loss 曲線,看着它從一個比較高的值,慢慢、穩定地往下走。曲線很平滑,沒有劇烈抖動,看起來一切都很健康。這時候你心裏往往會產生一種非常強烈的安全感: “這次應該穩了。” 但等你真正拿模型去測試時,問題就來了。 模型回答好像沒什麼變化 有時候甚至更奇怪了 你很難説

AI

大模型玩家七七 - 從 0 到跑通一次微調:別急着追效果,先讓它“真的動起來”

[]()##微調最難的地方,從來不是“學不會”,而是“跑不起來” 如果你是第一次接觸大模型微調,很可能已經經歷過這樣一個階段。你看過不少文章,也刷過不少視頻,大致知道什麼是 SFT、LoRA,知道微調是“拿數據繼續訓練模型”。從概念上看,這件事並不複雜,甚至有點“理所當然”。但真到你自己動手的時候,事情就開始變得不對勁了:環境裝不好,數據不知道該怎麼準備,模型跑是跑了但你完全不知道它在幹嘛,

AI

大模型玩家七七 - 客服大模型 ≠ 問答機器人

為什麼很多客服大模型,看起來很聰明,卻一點也不好用 如果你做過客服相關的項目,大概率會經歷一個非常相似的過程。 一開始,大家都很興奮。 把歷史客服文檔、FAQ、知識庫一股腦丟進 RAG,接上一個看起來很強的模型,測試時效果還不錯。大多數常見問題都能答上來,語氣也挺自然,看起來“已經能替代人工了”。 但只要一上線,問題就開始接連出現。 模型開始亂承諾 模型開始“過度熱情” 模型在不

AI

大模型玩家七七 - RAG 為什麼總是“看起來能用,實際不好用”?

RAG 真正讓人頭疼的地方,從來不是“搭不起來” 如果你已經做過一段時間 RAG,大概率會有一種非常熟悉的感覺: 系統是能跑的,流程也是完整的,embedding 用的也不差,向量庫、召回、rerank 該有的都有,但整體效果始終差點意思。 有時候是召回的內容看起來“擦邊”, 有時候是答案明明就在文檔裏,模型卻像沒看到, 還有時候,模型引用了一堆內容,但就是沒真正解決用户的問題。

後端

大模型玩家七七 - 你以為 PPO 很高級,其實它更像個“微調旋鈕”

為什麼 PPO 在真實業務裏越來越重要 如果你是從論文或者課程裏接觸 PPO 的,那大概率會有一種“這東西看起來很厲害”的感覺。策略梯度、clip、KL 約束、reward model,一整套體系下來,很容易讓人產生錯覺:只要把 PPO 跑起來,大模型就能被“精細打磨”。 但真正進到業務裏,你會發現情況完全不是這麼回事。 大多數業務方找你,並不是因為模型“不會回答”,而是因為模型“回答得讓人不放心

AI

大模型玩家七七 - PPO 為何成了大模型微調“最後的底牌”?一篇真正能跑通的工程實戰指南

PPO 為何成了大模型微調“最後的底牌”?一篇真正能跑通的工程實戰指南 開篇:無數大模型,是怎麼被「一行 PPO 參數」訓廢的 如果你真正做過大模型微調,大概率經歷過這些瞬間: reward 曲線一路狂飆,但模型開始胡説八道 模型突然學會“拍馬屁”,卻忘了基本常識 微調前還能正常回答,微調後像換了個“性格” 很多工程師第一次做 RLHF,都會天真地以為: reward 提升 = 模型變好

後端

大模型玩家七七 - 向量數據庫技術內核:從存儲到檢索,拆解其高效運作的秘密

向量數據庫技術內核:從存儲到檢索,拆解其高效運作的秘密 寫在前面:我也是“被向量數據庫名詞轟炸”過的人 説實話,我第一次接觸向量數據庫的時候,是有點抗拒的。 那會兒各種文章都在説: 向量數據庫是 AI 時代的“新型基礎設施” 沒有向量數據庫,大模型就跑不起來 它徹底改變了傳統數據庫的範式 結果我真正打開文檔一看,全是: embedding ANN IVF HNSW PQ

AI

大模型玩家七七 - 從零開始:PPO 微調大模型實戰(基於 PyTorch)

從零開始:PPO 微調大模型實戰(基於 PyTorch) PPO 真正難的,不是算法本身 如果你已經看過一些 PPO 的原理文章,大概率會有過這種感覺: 好像每個字都認識,但真讓我自己寫代碼,腦子還是一片空白。 這其實挺正常的。 至少我第一次準備動手寫 PPO 的時候,也是這種狀態。 問題不在你,而在 PPO 本身。 在論文裏,PPO 看起來是一個乾淨利落的算法; 但一旦落到工程裏,它

AI

大模型玩家七七 - RAG 選型避坑:5 種主流方案對比,輕量場景 vs 大規模場景怎麼選?

RAG 選型避坑:5 種主流方案對比,輕量場景 vs 大規模場景怎麼選? RAG選型核心邏輯,避開90%團隊踩過的坑 最近和多家企業的AI技術負責人深度交流,發現一個共性痛點:RAG(檢索增強生成)作為解決大模型“知識過期”“幻覺”的核心技術,80%的團隊都在選型上栽了跟頭——要麼用輕量方案硬扛大規模數據,導致檢索延遲飆升至3秒以上;要麼用複雜方案給小場景做“過度設計”,服務器成本翻倍卻沒提升效果

軟件設計

大模型玩家七七 - 10 萬文檔 RAG 落地實戰:從 Demo 到生產,我踩過的所有坑

10 萬文檔 RAG 落地實戰:從 Demo 到生產,我踩過的所有坑 引言:RAG 為什麼在企業級場景“必選但難用” 在過去一年裏,RAG(Retrieval-Augmented Generation)幾乎成了企業落地大模型的標準配置。 原因很簡單: 企業數據高度私有,無法直接丟給大模型訓練 業務知識更新頻繁,微調成本高、週期長 需要“可控、可解釋、可追溯”的回答來源 但當你真的把 RA

AI

大模型玩家七七 - 大模型微調評測入門:看懂這些指標,才知道模型好不好

大模型微調評測入門:看懂這些指標,才知道模型好不好 從“瞎評”到“精準評”:大模型微調核心評測指標全拆解 大家好,我是七七!最近後台收到很多粉絲的共性提問:“我用LoRA微調了Llama 2 7B模型做情感分析,怎麼判斷它好不好用?”“微調後的文案生成模型,憑感覺比原版好,但是怎麼證明?” 這其實戳中了大模型微調的一個核心痛點——很多新手只關注“怎麼調”,卻忽略了“怎麼評”。不少人微調完模型,僅

AI

大模型玩家七七 - 民用卡 vs 專業卡 vs 雲 GPU:大模型微調該選哪種?

民用卡 vs 專業卡 vs 雲 GPU:大模型微調該選哪種? 大模型微調 GPU 選型無優劣,核心是場景與成本的精準適配 大家好,我是七七!最近後台收到的GPU選型問題快堆成山了:學生黨問“16G民用卡能不能微調7B模型”,小團隊糾結“買專業卡還是租雲GPU”,企業負責人困惑“大規模微調該配多少張專業卡集羣”。 其實三類GPU沒有絕對的“好壞”,只有“適配與否”。之前幫一個跨境電商小團隊選型,他

AI

大模型玩家七七 - 顯存不夠?16G顯卡駕馭13B模型的計算與優化全指南

顯存不夠?16G顯卡駕馭13B模型的計算與優化全指南 低顯存逆襲,16G 顯卡駕馭 13B 模型的核心邏輯 大家好,我是七七!之前收到很多粉絲私信,核心痛點就一個:手裏只有16G顯卡,想微調13B模型提升效果,可要麼算錯顯存盲目下載後直接OOM(顯存溢出),要麼覺得“16G肯定不夠”直接放棄,眼睜睜看着別人用13B模型做出更優效果。 其實16G顯卡跑13B模型不是“天方夜譚”,關鍵在於兩點:一是

後端