在當前LLM(大型語言模型)的應用浪潮中,檢索增強生成(RAG)已成為相對成熟且應用最廣的落地模式之一。但無論是從最初的Naive RAG演進到Advanced RAG,還是最新的Agentic RAG,其核心都離不開一個關鍵底座:知識庫管理系統

對於面向落地應用RAG的產品經理和工程化技術人員而言,如果只是停留在對LLM能力或RAG流程的表面理解,很難在真實複雜的業務場景中建立起高效、穩定的智能諮詢系統。

筆者結合項目落地經驗,以及對RAGFlow、Dify、AnythingLLM等主流知識庫產品的使用實踐,從產品邏輯和技術架構層面,將RAG知識庫產品抽象提煉為清晰的三層架構,進行一次系統性的解構分析。

RAG落地實踐:知識庫三層架構和關鍵組件_分塊

理解這三層架構及其核心組件,是確保RAG系統在工程化實踐中實現高精準度、高效率的技術基礎,接下來本文自底向上逐層展開介紹。

RAG落地實踐:知識庫三層架構和關鍵組件_知識管理_02

知識存儲層:RAG系統的地基存儲結構

知識存儲層是整個RAG知識庫系統的地基,它必須能夠應對RAG所需的三種核心數據類型和存儲模式。

RAG落地實踐:知識庫三層架構和關鍵組件_分塊_03

1. 結構化存儲 (Structured Storage)

結構化存儲主要用來支撐文檔和知識的列表管理,記錄知識的基本信息和系統級元數據(如文檔名、上傳時間、所屬業務等)以及文檔和知識分塊之間的映射關係等。

可選組件:關係型數據庫如MySQL、MariaDB、PostgreSQL等是主流選擇。

2. 向量庫存儲 (Vector Database Storage)

這是RAG進行“檢索”的核心支撐。知識庫中所有經過向量化處理的知識分塊,都存儲在這裏,用於執行相似度搜索。

可選組件:工業級向量庫如Milvus、ChromaDB、Weaviate,兼容倒排索引的ElasticSearch、以及輕量級的Faiss等。

3. 對象存儲 (Object Storage)

對象存儲用於安全、可靠地存儲用户上傳的原始文檔(如PDF、PPT、DOC等),以便在檢索後能夠支撐用户查看原文,進行事實核驗和信息溯源。

可選組件:MinIO、Ceph、OSS(阿里雲)、S3(AWS)等。

工程洞察: RAG知識庫的架構複雜性在於,它並非單一數據庫系統,而是必須協同工作的三種存儲模式的集合。確保這三種存儲之間的數據一致性和高可用性,是工程團隊的首要挑戰。

知識處理層:從原始文檔到向量分塊的“煉丹爐”

知識處理層是RAG系統進行“知識提煉”的核心引擎。它決定了知識分塊(Chunk)的質量,直接影響最終的檢索召回率和精準度。

RAG落地實踐:知識庫三層架構和關鍵組件_分塊_04

1. 文件解析與OCR識別

RAG系統首先需要處理各種格式的文檔(如PDF、PPT、DOC)。文件解析器負責將這些複雜格式轉化為Markdown等易於處理的文本內容。如果文檔中含有圖片或掃描件,則需要調用OCR(光學字符識別)模型進行文字識別。

可選組件:文件解析器包括MinerU、DeepDoc、DifyExtractor等。OCR識別模型可選擇PaddleOCR、RapidOCR等。

2. 分塊切分(Chunking)策略的深度博弈

分塊切分是RAG工程化中的核心難點,它決定了知識的粒度。如果分塊太小,信息上下文丟失;分塊太大,向量化精度下降。

當前業界的分塊算法已從簡單的固定長度切分,發展到更高級的策略:

結構化切分:按特殊字符、標題樣式、章節目錄、段落等進行切分,保留了文檔的結構信息。

語義切分:基於語義關聯度進行動態切分,確保每個分塊內部語義的完整性。

工程洞察:優秀的知識庫產品(如RAGFlow)都會允許用户對Chunking策略進行精細化調整,以適應不同業務文檔(如代碼、財報、法律文件)的特點。

3. 向量化處理

切分好的知識分塊需要被轉化為高維向量語義,才能被向量庫存儲和檢索。向量模型(Embedding Model)的選擇直接決定了語義理解的深度和檢索的有效性。

可選模型:當前主流的高性能模型包括BGE-M3、Qwen3-Embedding等。

知識管理與檢索層:從知識收錄到輸出的業務閉環

最上層的知識管理與檢索層,是用户直接交互和工程運營的界面,它承擔着從知識收錄到知識輸出的業務閉環。

RAG落地實踐:知識庫三層架構和關鍵組件_三層架構_05

1. 知識管理:從上傳到“打標”的知識收錄過程

知識管理功能涵蓋了文件上傳、解析、分塊等過程。但對於追求高精準度的工程項目而言,知識打標(Metadata Tagging)是PM和工程師必須深度關注的重點。

純粹依賴向量語義相似度的檢索,容易在大型知識庫中造成結果氾濫。通過在知識管理層引入元數據(Metadata),可以標記知識的“業務領域”“時間範圍”“適用對象”等,可以實現對知識的結構化管理和定向檢索。

另外在解析、分塊、打標等技術措施之上,要保障知識的質量,還需要做好知識的運營管理。

2. 知識檢索:混合檢索的必然趨勢

知識檢索是RAG的最終輸出環節。雖然語義檢索是RAG的核心,但純語義檢索在面對術語、ID或新名詞時往往表現不佳。因此,成熟的RAG知識庫系統必須支持更多的檢索模式:

全文檢索(Full-text Retrieval): 依靠倒排索引,解決關鍵詞的精確匹配問題。

混合檢索(Hybrid Retrieval): 將語義檢索與全文檢索結合,平衡召回率和精準度。

工程洞察: 在混合檢索的基礎上,通常要進一步通過“元數據篩選”的方式,大幅度減少了待檢索的分塊數量,在犧牲少量召回率的基礎上,極大地提升了最終結果的精準率(Precision)。這在工程實踐中是高價值的取捨。

總結:系統性認知是RAG落地的基石

RAG技術已經度過了“能用”階段,正在邁向“用好”階段。對於面向落地應用的PM和工程技術人員而言,必須跳出對LLM本身的迷戀,轉向對知識庫這一關鍵底座的系統性認知。

RAG落地實踐:知識庫三層架構和關鍵組件_知識管理_06

本文梳理三層架構圖(知識存儲、知識處理、知識管理與檢索),在這三層架構的每個環節都做出精細化的工程設計和產品選擇,希望對您構建真正具備商業價值、能穩定運行的智能諮詢和內容生成類AI系統有所幫助。