博客 / 詳情

返回

從開發者視角觀察 OceanBase 開源的 AI 產品御三家

大家好,我是 OceanBase 開源團隊的一名研發同學,最近一年緊跟公司的 DATA X AI 戰略在做相關的研發工作,所以今天我就從我自己的視角和大家聊一聊我眼中的 OceanBase 在近期開源的 seekdb、PowerRAG 和 PowerMem 三款產品:

  1. seekdb:AI 原生混合搜索數據庫,基於 Apache 2.0 協議開源
  2. PowerRAG:企業級 RAG 解決方案,構建更智能、更準確的多模態檢索增強生成系統
  3. PowerMem:AI 記憶引擎,解決 AI 應用的長期記憶問題

很多人看到這三款產品第一反應是:"OceanBase 不是做數據庫的嗎?怎麼也開始搞 AI 了?這三款產品是什麼關係?"

今天,我就從我開發者的視角來聊一聊:為什麼一個數據庫公司,要同時推出三款 AI 產品?它們背後的核心邏輯是什麼?

(以下內容均為作者靖順的個人觀點,不代表本社區公眾號的立場)


AI 時代的數據挑戰:從 "存數據" 到 "理解數據"

過去兩年,AI 應用的發展帶來了全新的數據挑戰:

挑戰一:數據形態的多元化

傳統數據庫主要關注結構化數據的存儲和查詢,但 AI 應用需要處理:

  • 非結構化數據:文本、圖像、音頻、視頻
  • 多模態數據:同一場景下的文本+圖像+音頻混合內容
  • 向量數據:嵌入向量、語義表示
  • 圖數據:知識圖譜、關係網絡

挑戰二:上下文窗口的"偽增長"

大模型的上下文窗口一路狂飆:

  • GPT-3:4K tokens
  • Claude-2:100K
  • 某些專業模型:甚至支持 100 萬+ tokens

看起來,AI 終於能"記住整本書"了,是不是意味着我們可以把所有歷史對話、用户資料、產品文檔一股腦塞進去?

很遺憾,現實恰恰相反。

研究發現,當上下文越來越長,模型對關鍵信息的檢索能力反而會下降 —— 這種現象叫 "上下文腐化"(Context Rot)

為什麼會這樣?

  1. 注意力是有限資源:token 越多,每個信息分到的 "關注力" 就越少
  2. Transformer 的 O(n²) 複雜度:上下文翻 10 倍,計算量翻 100 倍
  3. 訓練數據偏短:模型沒學會處理"超長邏輯鏈"
  4. 位置編碼插值副作用:強行拉長上下文,讓模型對"時間順序"的理解變模糊

更麻煩的是,模型還有 "邊緣優勢" —— 它對上下文開頭和結尾記得最牢,中間內容最容易被忽略。

所以,不是模型記不住,而是我們喂錯了東西。

挑戰三:數據管理的複雜性

AI 應用的數據管理需求遠超傳統場景:

  • 持久化存儲:不能每次重新拼接上下文
  • 跨會話關聯:昨天説的事,今天還能用
  • 結構化管理:誰説的?什麼時候?重要嗎?
  • 安全合規:租户隔離、多 Agent 的共享和隔離
  • 實時分析:哪些數據被高頻使用?哪些是噪聲?

這些需求,單純的緩存、向量庫、臨時變量都做不到。


OceanBase 的戰略思考:Data×AI

面對這些挑戰,OceanBase 意識到:

未來的數據庫不僅要"存"數據,更要"理解"數據,成為 AI 應用的堅實基礎。

因此,OceanBase 啓動了 "Data×AI" 戰略,旨在探索數據庫在 AI 時代的範式躍遷。

我們相信:AI 應用的核心競爭力之一是在於數據有多準、檢索有多快、記憶有多智能。

而管理數據,正是數據庫公司的老本行。


三款產品的定位:構建完整的 AI 數據基礎設施

基於"Data×AI"戰略,OceanBase 推出了三款產品,它們不是孤立的存在,而是一個完整的 AI 數據基礎設施生態:

────────────────────────────────
          AI 應用層                               
    (智能客服、知識庫、Agent 等)                    
────────────────────────────────
                    ↓
────────────────────────────────
  PowerMem: AI 記憶引擎                           
  - 長期記憶管理                                   
  - 上下文工程                                     
  - 智能記憶提取與遺忘                              
────────────────────────────────
                    ↓
────────────────────────────────
  PowerRAG: 企業級 RAG 解決方案                    
  - 多模態文檔解析                                 
  - 知識庫構建                                     
  - 檢索增強生成                                   
────────────────────────────────
                    ↓
────────────────────────────────
  seekdb: AI 原生混合搜索數據庫                     
  - 向量+全文+標量+空間統一檢索                      
  - 輕量級、開箱即用                                
  - AI 原生設計                                   
────────────────────────────────

1. seekdb:AI 原生混合搜索數據庫(基礎層)

定位:AI 應用的數據基座

seekdb 不是在 OceanBase 上打補丁,而是從 AI 應用的實際需求出發,重新思考數據庫應該是什麼樣子

核心特性

  • AI 原生設計:支持向量、全文、標量及空間地理數據的統一混合搜索
  • 輕量級:僅需 1C2G 的資源即可運行,適合快速原型驗證
  • 開箱即用:全新的 SDK 設計,開發者僅需三行代碼即可構建基礎應用
  • 快速迭代:通過裁剪複雜的分佈式事務管理模塊,更迅速地響應開發者需求
  • 深度融合:兼容 Hugging Face、LangChain 等 30 餘種主流 AI 框架

為什麼需要 seekdb?

傳統數據庫為 OLTP/OLAP 場景設計,而 AI 應用需要的是:

  • 向量相似度搜索
  • 多模態數據統一檢索
  • 毫秒級響應
  • 輕量級部署

seekdb 就是為這些需求而生的。

2. PowerRAG:企業級 RAG 解決方案(知識庫層)

定位:構建更智能、更準確的知識庫和智能體應用

PowerRAG 基於 RAGFlow 二次開發,提供企業級的檢索增強生成(RAG)解決方案。

核心特性

  • 多模態檢索:結合 OceanBase 的多模態檢索能力,支持文本、圖像、音頻的統一檢索
  • 企業級適配:提供高可用、權限管理等特性
  • 豐富的組件支持:DeepSeek OCR、MinerU 等,滿足企業級 RAG 場景需求
  • 智能文檔解析:自動提取關鍵信息,構建高質量知識庫

為什麼需要 PowerRAG?

RAG 是當前 AI 應用的主流架構,但構建一個生產級的 RAG 系統需要:

  • 文檔解析、分塊、向量化
  • 多模態內容處理
  • 檢索策略優化
  • 企業級安全和權限

PowerRAG 將這些能力整合,讓開發者省去組合多種工具並反覆調優的繁瑣過程。

3. PowerMem:AI 記憶引擎(記憶層)

定位:AI 應用的長期記憶系統

PowerMem 解決的是 AI 應用中最核心的問題:如何讓 AI 持久化地"記住"歷史對話、用户偏好和上下文信息?

核心特性

  • 持久化與結構化:將每條記憶寫入 OceanBase 表,帶用户 ID、時間戳、重要性評分等元數據
  • 混合檢索架構:結合向量檢索、全文檢索、圖數據庫和結構化過濾
  • 智能記憶管理:引入艾賓浩斯遺忘曲線理論,自動提取、去重、合併、遺忘
  • 企業級特性:多租户隔離、多 Agent 支持、審計追溯

為什麼需要 PowerMem?

上下文腐化問題告訴我們:不是模型記不住,而是我們喂錯了東西。

PowerMem 的核心邏輯是:

  • 提純:從海量對話中提取高價值事實
  • 壓縮:去掉冗餘,降低 token 成本
  • 精準投放:把最關鍵的信息放在模型最容易注意到的位置

這本質上就是數據工程

  • 提取 = ETL
  • 壓縮 = 數據歸檔
  • 投放 = 索引策略

PowerMem 在 LOCOMO 基準測試中實現了:

  • 準確率提升 48.77%(78.70% VS 52.9%)
  • 響應速度提升 91.83%(1.44s VS 17.12s)
  • Token 用量降低 96.53%(0.9k VS 26k)

三者如何協同工作?

三款產品形成了一個完整的 AI 數據基礎設施棧:

典型應用場景:智能客服系統

  1. seekdb:存儲和檢索知識庫
    • 存儲 FAQ、產品文檔的向量表示
    • 支持"用户問什麼"的語義搜索
  2. PowerRAG:構建和維護知識庫
    • 解析企業文檔(PDF、Word、PPT 等)
    • 多模態內容處理(包含圖片的文檔)
    • 生成高質量的檢索結果
  3. PowerMem:管理用户記憶和上下文
    • 記住"用户上次問了什麼"
    • 記住"用户的偏好和習慣"
    • 在有限 token 下,精準投放最相關的歷史信息

典型應用場景:多 Agent 協作系統

  1. seekdb:Agent 之間的共享知識庫
    • 存儲共享的領域知識
    • 支持跨 Agent 的知識檢索
  2. PowerRAG:Agent 的知識獲取能力
    • 從外部文檔中提取知識
    • 構建 Agent 的專業知識庫
  3. PowerMem:Agent 的獨立記憶空間
    • 每個 Agent 有獨立的記憶空間
    • 支持跨 Agent 的記憶共享和協作
    • 細粒度權限控制

核心邏輯:不是跨界,而是範式躍遷

OceanBase 做這三款產品,不是為了追熱點,而是因為我們相信:

AI 應用的核心競爭力之一在於數據有多準、檢索有多快、記憶有多智能。

而這三件事,本質上都是數據管理問題

  1. 數據存儲:如何存儲多模態、向量化的數據?→ seekdb
  2. 數據檢索:如何從海量文檔中精準檢索?→ PowerRAG
  3. 數據記憶:如何讓 AI 持久化地記住關鍵信息?→ PowerMem

這不是跨界,而是數據庫公司在 AI 時代的範式躍遷。

從"存數據"到"理解數據",從"查詢優化"到"上下文工程",從"事務處理"到"記憶管理"——這些看似不同的領域,底層邏輯都是如何高效地管理數據

而這,正是 OceanBase 的主場。


個人暴論:數據即智能

在 AI 應用從"玩具"走向"生產"的今天,數據的質量,決定了智能的上限。

  • 一個能精準檢索知識庫的 RAG 系統,比只會背文檔的機器人更智能
  • 一個能記住用户偏好的客服,比每次都從零開始的工具更值得信賴
  • 一個能關聯歷史決策的 Agent,比每次都重新學習的系統更高效

而這一切的前提,是有一套可靠、可擴展、可治理的 AI 數據基礎設施

seekdb + PowerRAG + PowerMem = 完整的 AI 數據基礎設施

這不是三款孤立的產品,而是一個完整的生態:

  • seekdb 提供數據存儲和檢索的基礎能力
  • PowerRAG 提供知識庫構建和文檔處理能力
  • PowerMem 提供記憶管理和上下文工程能力

三者協同,共同構建下一代智能應用的數據基座。


總結

從"上下文腐化"到"上下文工程",從"向量庫"到"AI 數據基礎設施",OceanBase 三款產品的誕生邏輯其實很簡單:

  1. 問題識別:AI 應用面臨全新的數據挑戰(多模態、上下文腐化、記憶管理)
  2. 本質洞察:這些挑戰本質上都是數據管理問題
  3. 能力匹配:數據庫公司的數據管理能力,正是 AI 應用需要的核心能力
  4. 產品落地:用 OceanBase 的技術積累,構建完整的 AI 數據基礎設施

seekdb + PowerRAG + PowerMem = 完整的 AI 數據基礎設施

這就是為什麼 OceanBase 要同時推出三款 AI 產品。

不是跨界,而是迴歸本質。


相關資源

seekdb

  • 🌟 GitHub: https://github.com/oceanbase/seekdb
  • 🌐 官網: https://www.oceanbase.ai/zh-CN/

PowerRAG

  • 🌟 GitHub: https://github.com/oceanbase/powerrag

PowerMem

  • 🌟 GitHub : https://github.com/oceanbase/powermem
  • 📖 文檔 : https://deepwiki.com/oceanbase/powermem
  • 💬 Discord (Join our community) : https://discord.com/invite/74cF8vbNEs
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.