告別拼湊：記憶、檢索與AI數據引擎的一站式技術棧解析（一）詳情 - AI OBCE666 博客

作者：傅榕鋒，OceanBase 高級技術專家

AI 開發者需要什麼樣的數據庫

在開始正式話題前，我們不妨先思考一個問題： AI 時代下開發者需要什麼樣的數據庫？

自本世紀初以來數據庫需求的演變歷程。Web 2.0及業務在線化的時代，強調的是一個可靠、精確的記錄系統，能夠精準地記錄每一筆交易數據，滿足典型的事務處理（TP）需求。進入移動互聯網和數據智能化時代後，隨着數據量的爆發式增長，海量數據分析的需求成為主流。這時，分析型（AP）數據庫開始佔據重要位置。AI 時代的真正到來，驅動數據庫不僅要支持查詢和分析功能，更需具備理解和推理的能力。

快來關注我，獲取 OceanBase 第一手的產品信息和技術資源，與行業大咖 “嘮” 出真知！

AI 時代開發者的痛點

作為數據庫從業者，我們需要深入分析 AI 時代下開發者對數據庫的具體需求。

數據類型的多維化：在傳統數據庫中，圖片、視頻、音頻僅能被存儲而難以有效利用。藉助 AI 模型的幫助，這些非結構化數據可以轉化為可檢索的形式，如通過嵌入模型轉換為向量，或使用大語言模型提取文本描述和標籤，從而將非結構化數據轉變為結構化或半結構化數據以實現高效檢索。

性能與規模的極致化：鑑於向量數據對內存和磁盤資源的高佔用特性，在成本與性能之間尋求最佳平衡顯得尤為關鍵。為此，亟需採用高效的算法，以優化召回率與資源成本之間的權衡關係。

智能處理的內生化：例如，在 RAG 場景中，文檔需先進行切片並生成向量，這通常涉及向量數據庫、文檔型數據庫以及事務型數據庫的聯合使用。為了簡化這一流程，理想的解決方案是讓數據庫自身承擔更多的標準化數據處理任務，減少開發者的負擔。

開發流程的敏捷化：目標是讓開發者更加專注於業務邏輯本身，而非陷入複雜的數據處理流程之中。

AI 時代的理想數據庫

基於上述痛點，AI 時代的理想數據庫應具備以下四個特徵。

多模態支持：提供統一的平台，支持多種數據類型，包括但不限於向量、全文、標量、 JSON 格式。
高性能引擎：針對 AI 工作負載進行優化，確保在控制成本的前提下實現最優性能表現。
智能化集成：內置 AI 運行時環境，使數據庫可以直接執行復雜的智能處理任務，減少對外部系統的依賴。
簡易操作：設計直觀易用的界面和工具，降低非專業開發者的使用門檻，促進更多領域專家參與到數據處理工作中。

綜上所述， AI 時代我們期待的數據庫應該是強大、智能、一體化的，是數據與 AI 融合的平台。

AI原生的一體化數據庫是否存在

正所謂“需求決定市場”，契合AI時代理想數據庫特質的產品必然會出現。而就目前來看，OceanBase 新發布的 seekdb 已率先落地，不僅具備了相關核心能力，更在快速迭代中持續進化。

混搜架構的輕量級、多模態的AI原生數據庫

OceanBase seekdb 是一款面向 AI 場景的輕量級、多模態的原生數據庫，專為支持混合搜索、上下文理解與智能數據處理而設計。其整體架構分為五個核心層級，實現從數據存儲到查詢執行的全鏈路優化。

1. 統一應用接口層。

seekdb提供基於 SQL 的統一查詢語言，兼容標準 SQL 語法，支持多模態數據的聯合查詢。同時，提供面向開發者的 Python SDK，具備簡潔易用的 API 接口，支持 skip-by-list 等高效檢索模式，顯著降低開發者使用門檻。

2. 支持混合負載的多模計算層。

繼承自 OceanBase 的成熟優化器體系，seekdb具備強大的查詢規劃與執行能力，在混合檢索場景中，會自動進行自適應執行和查詢優化，能夠根據查詢條件自動選擇最優執行路徑。同時，支持混合負載自適應執行、AI 函數調用、ACID 事務保障及靈活 UDF 擴展，滿足複雜業務需求。

3. 多模數據層。

支持多種數據類型統一存儲，實現“存即能檢”，打破傳統系統中不同數據類型需分庫管理的侷限。包括：

關係表（傳統結構化數據）
向量（Embedding 向量）
文本（原始文本內容）
JSON（半結構化數據）
GIS（地理空間數據）
數組、位圖等擴展類型

4. 多模索引層。

構建業界領先的多模索引體系，支持的索引類型如下。

向量索引：高效支持近鄰搜索（ANN），兼顧精度與性能。
全文索引：支持中文分詞與語義匹配。
混合索引：結合向量與標量條件進行聯合檢索。
JSON 索引：加速嵌套字段查詢。
二級索引、GIS 索引：滿足多樣化查詢需求。

支持多索引協同查詢，在一次請求中完成跨模態數據的融合檢索。

5. 部署模式層。

服務器模式：傳統集羣部署，適用於高併發、大規模生產環境。
嵌入式模式：以庫的形式內嵌於應用程序中，生命週期與應用一致，適合邊緣計算、AI 應用快速構建等輕量化場景。

OceanBase seekdb 通過“統一接口 + 多模存儲 + 智能索引 + 靈活部署”的一體化設計，實現了對 AI 工作負載的端到端支持，真正做到了“一個數據庫，搞定所有數據”。

快速構建：更靈活、更輕量、不止於 SQL

OceanBase seekdb 不僅具備強大的功能，更在易用性和部署靈活性上進行了深度優化，助力開發者快速構建 AI 應用。

1. 更靈活：雙運行模式，適配多樣場景。

服務器模式：適用於企業級、高可用、分佈式部署。
嵌入式模式：直接集成到 #Python 應用中，無需獨立部署數據庫服務，極大簡化開發流程，特別適合 RAG、Agent、智能問答等輕量級 AI 應用。

2. 更輕量：極簡資源佔用，輕鬆跑起基準測試。

單實例僅需 1C2G 內存即可運行 VectorDBBench 基準測試，相比傳統數據庫，資源消耗更低，啓動更快，非常適合本地調試、原型驗證和邊緣部署。

3. 不止於 SQL：引入 Schemaless SDK。

引入 Schemaless SDK，開發者無需定義表結構即可直接插入和查詢數據，提升開發靈活性。

使用seekdb快速創建RAG應用

下面我們演示一下如何使用 seekdb 快使創建一個 RAG 應用。

第一步：三行代碼快速創建一個知識庫（SETUP）

導入 pyseekdb 模塊，啓用 seekdb 的 Python SDK。
初始化客户端實例，參數為空表示採用嵌入式模式，數據庫生命週期與應用綁定，無需獨立部署服務。
創建知識庫並定義為 Collection。

第二步：批量插入文檔片段（INSERT）

功能説明：

調用 upsert() 函數批量插入文檔內容（documents）。
同時關聯元數據（metadatas），包括分類、內存、存儲、價格等結構化信息。
顯式指定文檔 ID（ids），便於後續檢索與更新。

關鍵特性：

用户僅需提供原始文本和元數據，無需手動調用嵌入模型生成向量。
數據庫內部自動調用內置的嵌入模型，將文本轉換為向量並存儲。

AI 能力下沉至數據庫，開發者無需關注向量化過程，seekdb 自動完成文本 → 向量的轉換，實現“透明化”處理。

第三步：混合檢索，精準召回（QUERY）

查詢維度分析：

query_texts：輸入自然語言文本，觸發向量檢索，用於語義匹配。
where：設置關係型過濾條件，如 category == laptop 和 ram >= 16，實現精確篩選。
where_document：基於全文索引進行關鍵詞匹配，要求文檔內容包含 “RAM”。
n_results：限制返回結果數量為 2 條。

實現機制：

查詢時，seekdb 內部自動將 query_texts 輸入傳遞給嵌入模型，生成查詢向量。
結合向量索引、全文索引、二級索引等多種索引執行混合檢索。
最終返回滿足所有條件的最相關結果。

第四步：效果展示

輸入檢索條件為：需要一個 12 GB 內存以上的高性能筆記本。運行後輸出結果如下圖所示，

召回結果分析如下。

第一條：16GB 內存、512GB 固態的專業筆記本，完全滿足“高性能 + 16GB 以上內存”的要求。
第二條：32GB 內存、1TB 固態的遊戲本，雖非專業用途但性能卓越，符合語義意圖。

該案例模擬了典型的 RAG 場景，用户只需輸入自然語言問題，系統即可自動完成文本向量化、多條件聯合檢索、高精度召回。全流程由數據庫內核統一處理，極大簡化了開發複雜度,真正實現“讓開發者專注於業務，而非數據處理”。

歡迎親自上手試用：https://github.com/oceanbase/seekdb。當前版本支持 Linux 平台下的嵌入式模式運行，Windows 和 macOS 版本將在近期和大家見面。可訪問 oceanbase.ai 獲取樣例代碼，支持本地測試與快速驗證。

SQL 直接調用 AI 的原生體驗

OceanBase seekdb 不僅是一個支持多模態數據存儲與混合檢索的數據庫，更致力於將 AI 能力深度集成於數據庫內核，實現“SQL 直接調用 AI”的原生體驗。

seekdb AI Inside 的內置處理除了 AI_EMBED 方法外，還引入 AI_RERANK 和 AI_COMPLETE，可以實現數據分析自動化、特徵提取、智能內容生成、語義搜索增強、結果優化等效果。在 seekdb 中使用可以構建從粗排到精排的高效分層混合檢索處理流程。該流程分為四個階段。

階段1：標量過濾（Scalar Filtering）。在全量數據集上首先執行關係型條件過濾（如 category = 'laptop', ram >= 16），縮小候選集過濾範圍。

階段2：向量搜索（Vector Search）。對過濾後的候選集執行向量相似度檢索，基於語義匹配找出最相關的文檔，使用近鄰搜索算法（ANN）高效完成高維向量比對。

階段3：全文搜索（Full-text Search）。在候選集中進一步執行關鍵詞匹配，確保結果包含用户關心的關鍵信息（如 "RAM"），支持中文分詞與模糊匹配，提升召回精度。其中標量、向量、全文的過濾順序取決於優化器。

階段4：粗排 → 精排 → 大模型重排。經過以上過濾後得到粗排的結果，此時再去調用 AI_RERANK，數據庫會直接調用 RERANK 模型進行精排，精排結束後，通過調用 AI_COMPLETE 即可調用大模型，大模型會直接進行回答。以上所有的 AI 標準操作流程都在數據庫中進行，開發者只需在查詢中添加相應函數，即可讓數據庫自動調用大模型對數據進行處理，顯著提升用户體驗。

OceanBase seekdb 適用場景

OceanBase seekdb 作為一款輕量級、多模態、AI 原生的數據庫，憑藉其統一存儲、混合檢索、內嵌 AI 能力和嵌入式部署支持，在多個新興與傳統智能化場景中展現出顯著優勢。以下是其典型的適用場景。

1.替代“三庫並行”，降本增效

在 RAG 架構中，傳統方案通常需要同時維護三類數據庫。

向量數據庫存儲文本嵌入向量。
文檔數據庫保存原始文本內容。
關係型數據庫管理元數據（如分類、時間、權限等）。

這種“三庫並行”模式不僅帶來高昂的運維複雜度，還導致資源重複佔用（三份獨立實例），難以在資源受限的本地或邊緣環境中落地。seekdb 通過單一數據庫統一承載向量、文本與結構化元數據，實現一次寫入，多路索引（向量索引 + 全文索引 + 二級索引）、統一查詢接口，支持混合條件過濾、極低資源開銷（1C2G 即可運行），適合個人本地知識庫、中小企業內部知識管理系統、邊緣側智能問答應用等。

2.語義搜索引擎，打破模態壁壘

seekdb 的多模態能力使其天然適配跨模態語義搜索場景。無論是文本、圖片、音頻還是視頻，均可通過嵌入模型轉化為統一的向量表示，並結合元數據進行聯合檢索，通過統一向量 + 元數據 + 全文的混合檢索框架，打破模態壁壘。典型應用包括：以圖搜圖、音頻內容檢、視頻片段語義匹配、多媒體資產管理系統。

3.Agentic AI 應用，保證數據一致性

在 Agentic AI（智能體）場景中，Agent 需要頻繁執行上下文感知的混合檢索，比如結合用户歷史行為（標量過濾）、匹配任務目標語義（向量搜索）、檢索相關文檔片段（全文匹配）。seekdb 的原生混合檢索引擎與內嵌 AI 函數能夠高效支撐此類複雜查詢，避免外部服務調用帶來的延遲與一致性問題。適用於任務型對話系統、自主決策機器人、智能工作流引擎等應用場景。

4.AI 輔助編程，提升質量，降低成本

AI 編程助手存在雲端 + 客户端雙端檢索需求，傳統方案面臨兩大挑戰。

架構割裂：雲端使用多源召回（向量+全文+語法樹），客户端依賴輕量插件（如 SQLite + 向量擴展），兩套系統邏輯不一致。
性能瓶頸：通用數據庫缺乏專業向量索引與優化器，召回效果與效率受限。

seekdb 提供統一的 SDK 與查詢接口，可使雲端與客户端使用同一套 API，且客户端在嵌入式模式下仍具備專業級向量檢索能力。seekdb還支持代碼語義搜索、API 推薦、錯誤修復建議等高級功能。通過這些能力統一技術棧，提升召回質量，降低雙端開發與維護成本。

5.企業應用智能化絲滑升級

對於大量仍在使用 MySQL 的傳統企業應用，seekdb 提供了一條平滑演進路徑：

高度兼容 MySQL 協議，現有應用可無縫遷移。
遷移後即可獲得向量檢索、全文搜索、JSON 支持等 AI 原生能力。
為未來引入 RAG、智能報表、自動化分析等 AI 功能奠定數據基礎。

因此，MySQL 到 OceanBase 的遷移是“最絲滑”的路徑之一。seekdb 作為其輕量化延伸，進一步降低了企業智能化轉型的技術門檻。

6.端側應用智能化的理想選擇

隨着終端設備算力提升，越來越多智能應用向端側遷移。seekdb 的嵌入式部署能力使其成為端側智能數據庫的理想選擇：

資源佔用極低（1C2G 可運行）。
支持離線向量檢索與語義理解。
生命週期與應用綁定，無需獨立服務進程。
讓端側應用具備“本地大腦”，減少對雲服務的依賴。

典型場景包括：

智能家居設備中的本地知識問答。
工業機器人中的實時故障診斷。
移動端個人助理的上下文記憶管理。
車載系統的本地語義導航。

從輕到重、從簡到繁： AI 應用快速迭代的理想基礎設施

在 AI 應用快速迭代的背景下，開發者面臨從原型驗證、開發測試到生產部署的多階段需求。OceanBase 與 seekdb 的深度融合，構建了一套覆蓋全生命週期、支持平滑演進的彈性數據庫架構，能夠滿足不同階段、不同規模場景下的靈活部署需求。

原型驗證與開發測試階段：嵌入式模式（seekdb）

在項目初期，開發者通常需要快速驗證 AI 模型效果或構建最小可行產品（MVP）。此時可採用 seekdb 嵌入式模式：

將 libseekdb.so 動態庫直接集成至應用中，作為本地數據庫運行。
數據庫生命週期與應用綁定，啓動即用，關閉即銷燬。
無需獨立部署服務，極大簡化環境搭建流程。
支持向量、文本、JSON 等多模態數據存儲與混合檢索。

嵌入式模式適用於個人開發者快速原型開發、端側智能應用（如移動端、機器人）、本地調試與算法驗證等場景。

測試與小規模生產環境：單機部署模式

當應用進入測試或小規模上線階段，可遷移到單機部署模式：

啓動獨立的 seekdb 進程，提供服務端接口。
支持多客户端連接，適合團隊協作開發。
可通過配置文件管理數據路徑、內存參數等。
仍保持與嵌入式模式的 API 兼容性，代碼無需變更。

單機部署模式適用於小型工作負載、測試環境與生產環境、多租户需求等場景。

生產環境：多租户與高可用架構

隨着業務穩定運行，需考慮資源隔離、高可用性和容災能力，此時可選擇以下兩種生產級部署方式。

單機多租户模式（OceanBase 單機部署）：
- 使用 OceanBase 單機實例，通過多租户機制實現多個業務之間的資源隔離。
- 適用於多個業務共享同一數據庫實例但需獨立管理資源的場景。
- 支持獨立的配額控制、備份策略和監控告警。
主備模式 / 三副本模式（OceanBase 高可用架構）：
- 採用主備架構或三副本（2F1A）架構，保障數據高可用。
- 支持自動故障切換與讀寫分離。
- 適用於對穩定性要求較高的中小規模業務系統。

多租户與高可用架構適用於中小規模工作負載、對容災和高可用有明確要求的業務、多租户共用數據庫的 SaaS 平台等場景。

大規模與高性能場景：分佈式集羣架構

當業務持續增長，數據量和併發請求激增時，可進一步擴展為分佈式集羣架構。

無共享分佈式集羣：
- 由多個 OBServer 節點組成，支持水平擴展。
- 支持大規模工作負載、關鍵業務高併發訪問。
- 具備強一致性、線性可擴展性與動態擴容能力。
基於對象存儲的存算分離集羣：
- 存儲層使用對象存儲（如 OSS），計算層由 OBServer 提供。
- 實現“冷熱數據分離”，降低存儲成本。
- 適用於海量非敏感數據分析場景（如日誌分析、歷史歸檔）。
- 提供更高的性價比與更強的擴展能力。

分佈式集羣架構適用於大規模工作負載、關鍵業務系統、高性能高併發、更高性價比的大數據處理任務等場景。

OceanBase 與 seekdb 的組合形成了一個 “從輕到重、從簡到繁” 的完整彈性架構體系，核心優勢有如下三點。

API 完全兼容：無論選擇哪種部署模式，業務代碼無需修改；
配置驅動升級：只需更改連接地址與配置參數，即可完成架構遷移；
平滑演進路徑：支持從個人開發到企業級生產的無縫過渡。

這使得 OceanBase + seekdb 成為 AI 應用快速迭代的理想基礎設施，真正實現了“一次開發，全棧適配”，助力企業在 AI 時代加速創新落地。

當然，在AI時代，AI數據庫不足以支撐應用所需的完整基礎設施能力，因此，OceanBase構建了上下文工程體系中的關鍵能力。讓我們敬請期待下一篇文章。

OBCE666 博客

OBCE666 博客

博客 / 詳情