當一位操盤過 Facebook 在線 Infra,阿里搜索數據和機器學習平台,阿里雲實時計算平台,以及達摩院機器智能工程的技術領軍人,帶着 1 億美金融資與團隊殺入市場,數據庫行業的遊戲規則註定要被顛覆。
2025 AICon 大會·上海站,小質科技 CEO 王紹翾在接受某知名媒體的採訪中首度介紹:團隊歷時 4 年打造的 ProtonBase 堪稱“六邊形戰士”。它既是一個支持行列混合存儲的分佈式數據庫和實時數倉,實現了真正的實時 HTAP;同時也支持半結構化數據檢索、文本檢索和 OLAP 分析,讓數據可視化能力得到了質的提升。更為關鍵的是,它通過實時增量物化視圖技術取代了 Flink,重新定義了流批一體的計算範式;支持向量檢索,構建了 AI Agent 所需的完整數據底座;更打通了湖上數據的高效導入導出和外表查詢實現了湖倉一體。
這款產品不僅可以讓金融量化交易決策和風控系統實現“亞秒級決策”,又能在車聯網數百萬級高併發信號寫入的場景下,實現實時數據檢測的秒級分析。其技術突破的底層邏輯,源於對“未來應用只需一個 Data API 和一個 AI API”的精準預判,而 ProtonBase 已率先拿下“多模數據庫+AI 數據查詢入口”的生態船票。
這場從硅谷到阿里再到打造 ProtonBase 的技術革命,究竟隱藏着哪些顛覆行業的密碼?本文將深度解構其技術架構、場景落地與未來趨勢,揭開小質科技的進化邏輯。
以下是視頻採訪的全部內容,為方便讀者查看,視頻下方也附上了文字內容。
https://www.bilibili.com/video/BV1bvMHz7EVJ/?aid=114665409480...
Q1:首先感謝王老師來參加 AICon 大會上海站,請您做一下自我介紹。
王紹翾: 大家好,我是王紹翾,在美國博士畢業後,加⼊了 Facebook 做在線 Infra,參與的項目包括 Memcache,RocksDB,以及 Facebook 自研的在線圖數據庫 TAO 等項目。
2015 年,我回國加入阿里,主要有兩段工作經歷,第一段在搜索事業部,負責搜索的數據和機器學習平台;第二段在達摩院,負責整個機器智能工程,包括視覺/語音/NLP 等 AI 技術的模型訓練、推理、以及向量檢索技術。
2021 年,我離開阿里創建了小質科技,和團隊一起打造了核心產品 ProtonBase。因為之前的技術積累和團隊的口碑,我們得到諸多頭部基⾦的認可,順利融資近 1 億美金。目前,公司已經成立 4 年,服務了數十家客户,產品歷經反覆打磨和驗證,正處於商業化的全球擴張期。
Q2:⼩質科技的核心產品 ProtonBase,是多雲原生、兼容 PostgreSQL 的分佈式 Data Warebase。想請您分享⼀下,公司打造這款產品的初衷是什麼?是基於怎樣的⾏業背景和痛點洞察,才決定研發這樣⼀款產品來解決行業問題的?
王紹翾: 我們創業之初就預見到未來的所有應用服務都將主要建立在兩個 API 之上,一個是 Data API,一個是 AI API。
過去,Data API 的實現極為複雜,用户若想搭建一個應用的底層,往往需要使用非常多數據系統。例如,數據庫橫向擴展可能採用 MongoDB 或 HBase,文本檢索使用 Elasticsearch,還可能需要向量檢索,分析型數據庫等。如此一來,用户最終必然會面對 A、B、C、D、E 等諸多數據產品,硬件開銷以及運維和開發成本急劇上升。
ProtonBase 產品研發之初是想讓業務的架構迴歸簡單(Simple),解決架構不得不從 A 到 B,從 B 到 C,從 C 到 D 不斷膨脹的問題。隨着產品面世之後,在與市場不斷磨合的過程中,我們發現 ProtonBase 最強的 PMF(產品與市場的匹配度)在於滿足那些對實時決策(Instant Decision)有需求的業務,例如金融量化交易和風控、車聯網、以及數據可觀測性等場景,這些場景的數據既需要具備極高的端到端的實時性,同時也要支持在這些實時數據之上的高併發複雜查詢—— 而這正是 ProtonBase 的優勢所在。
Q3:在 ProtonBase 的研發過程中遇到的最⼤技術挑戰是什麼?團隊是如何突破這些難題,確保產品順利推進的?
王紹翾: 挑戰非常多,因為要把 ProtonBase 打造成一個強大、統一的 Data API 平台,必須具備五大核心能力:OLTP、文檔數據庫、文本檢索、向量檢索,以及 OLAP。
許多客户會問我們:“你們是如何將這些本質上差異巨大的能力整合到一個系統中的?”其實,我們整個團隊經歷了數據庫,大數據,再到數據庫的時代,積累了大量的工程經驗。我們今天的產品其實就是集成了數據庫和大數據的最重要的三個能力,第一是存儲,第二是索引,第三是在高速存儲上做到數據庫級別的存算分離。
- 存儲層: ProtonBase 支持數據的行存、列存以及行列混存;
- 索引層: ProtonBase 實現了數據庫最重要的全局二級索引(Global Secondary Index),以及搜索所需要的倒排索引、向量索引、分析所需要的列存索引等等;
- 存算分離: 實現數據庫級別的存算分離的挑戰非常大。大數據的存算分離是基於公有云上高可用的對象存儲,而數據庫系統不能選用對象存儲,因為它需要更高的吞吐和更低的延遲。要做好一個實時或者近實時的數據庫級別的存算分離,難度和挑戰很大,但我們實現了。
Q4:企業在選擇一款數據庫產品時要考慮的因素很多,ProtonBase 最優勢的場景是什麼,在哪些技術場景下,企業適合考慮使⽤ ProtonBase?
王紹翾: ProtonBase 在數據 Data API 上,幾乎實現了中間層的所有功能,但我們並不希望客户將 ProtonBase 僅用於單一模式,更希望把它視為多模數據庫,發揮出 1+1>2 的化學效果。目前我們至少在三個方向上看到了這種因為多模的能力帶來的 1+1>2 的場景。
一是真正的 HTAP 場景。如果一個數據系統僅將 Transaction Data 存放在 OLTP 數據庫,再將數據同步到 OLAP 數據庫去做報表業務,那並非真正的 HTAP。真正的 HTAP 首先要實現寫入即可見(OLTP 和 OLAP 的查詢),其次要支持較為複雜的偏分析類查詢,且查詢吞吐較高,我們將這種場景稱為真正的 HTAP,例如金融量化交易。
二是可觀測性和實時數倉場景。我們發現一個有意思的事情,數倉並不等同於 OLAP,越來越多的場景在數倉上提出了對數據庫能力的需求。例如,用户在做 OLAP 分析後發現了一些規律,就想去查看明細數據,按某些主鍵 PK 進行全部數據召回,甚至有時不僅需要對 PK 進行過濾召回,還需對非 PK 的主鍵進行過濾召回。此時,就需要 OLTP 數據庫的全局二級索引的能力——而這是所有 OLAP 引擎所不具備的。
第三是 AI Agent 場景。因為 AI Agent 背後需要對接 MCP(Model Context Protocol ),假設一家公司有多個服務和數據系統,當把數據存在 3~5 個數據系統之上,就會有 3~5 個 MCP,大模型想去對接 MCP 做一些決策的時候就非常複雜。用一個數據庫,一個 MCP 服務,可以大幅降低 LLM 的負擔和推理複雜度。所以 Agent 天然期望用一個多模數據庫來⽀持業務。
所以,真正的 HTAP、可觀測性+實時數倉、以及 AI Agent 這三個大場景,非常適合使用 ProtonBase 這種多模數據庫。在這些場景下,企業可以藉助 ProtonBase 多模融合、實時響應、高併發查詢的能力,獲得遠超傳統架構所帶來的業務回報。
Q5:從 2021 年成立至今,小質科技的客户已經涵蓋金融、電商、⻋聯網與物聯網、製造、遊戲、廣告、快消、教育等行業。能否簡單介紹下這些行業是怎麼使用 ProtonBase 的,並從中挑選一兩個最具代表性的客户案例,詳細分享一下合作過程、解決的問題以及最終取得的成效?
王紹翾: 經過 4 年發展,公司已服務幾十個客户,我們始終聚焦於最能發揮 ProtonBase 產品特性的場景去打磨與落地。我們有兩個核心 PMF:
第一類 PMF:秒級 Freshness + 高吞吐 Instant Decision(也就是我上面提到的真正的 HTAP)。具體應用包括:
- 金融場景:金融行情的量化分析和交易、金融的反作弊;
- 廣告/推薦系統:廣告/推薦決策算法複雜且吞吐高,全鏈路越實時越有效;
- 車聯網與 IOT:車機數據每秒更新,需即時進行規則匹配和安全分析。
第二類 PMF:Simplicity,有些應用期望數據庫天然具備 Hybrid 的能力。例如 AI Agent 場景中,系統希望直接對接一個統一的數據接口 MCP,所以 All-in-One 的多模數據庫是非常適合於 AI Agent 的,另外在可觀測性的場景下也越來越需要數據庫要具有 Hybrid 的能力。
下面我們挑選兩個最具代表性的落地案例,分別來自金融和車聯網行業,幫助大傢俱體理解 ProtonBase 的實際價值:
【案例一】金融客户:支撐秒級實時決策的 AI 交易系統
這家客户來自金融證券行業,需求非常典型:整個交易行情數據需要非常實時的寫入數據庫系統,寫入即可見,然後有大量的交易者或者分析師甚至 AI,對這些實時的數據做複雜的分析,然後做交易決策,所有過程都需要在幾秒內甚至亞秒級完成(AI Trading)。同時,這個客户內部有很多數據需要做可觀測透出,他們最早使用的是 TSDB 這一類時序數據庫,但是 TSDB 不支持 update ,客户轉而使用 Elasticsearch / ClickHouse 這些 OLAP 系統,但是這些系統不能很好地支持複雜查詢,在冷熱分離和彈性方面也有諸多詬病。最終這家金融客户選用了 ProtonBase。
【案例二】車聯網客户:支撐數百萬輛車併發的實時異常檢測系統
該客户是頭部車企,該車企每輛車每秒上傳更新很多車機信號,需要系統快速應用各種規則分析數據,檢測是否存在軟件更新故障或其他突發問題。檢測出問題後,需要立即按照某些特定列值召回某輛車或某批車的某些數值,這就天然形成了一個對 OLTP 和 OLAP 要求極高的場景。最終這家公司也是選用了 ProtonBase。
Q6:ProtonBase 作為⼀款基於 Data Warebase 理念的產品,既是⼀個數據庫,也是⼀個數倉,還⽀持數據實時加⼯計算和數據湖上的查詢加速計算。那麼它和 HTAP、流批⼀體、以及湖倉⼀體架構的關聯和區別是什麼?
王紹翾: 很多人都會問到類似的問題。簡單來説,ProtonBase 用創新性的架構和實現,解決了數據庫和大數據領域詬病已久的諸多問題,能力覆蓋了 HTAP、流批一體、湖倉一體等若干多模場景。客户對數據產品的需求往往只需要使用 ProtonBase 這一款產品就夠了。
Data Warebase 與 HTAP 的區別
首先 HTAP 不是一個數據庫的概念,因為 SQL 天然就是一種既能支持 OLTP,也能支持 OLAP 的語言,但當數據量變大、系統負載變複雜時,很多系統不得不在兩者間做取捨。這也是傳統數據庫和數倉系統割裂的根源。所以 HTAP 要求的是一個系統能同時在 OLTP 和 OLAP 這兩個場景下都擁有很好的寫入和查詢的性能。ProtonBase 作為一個 Data Warebase,既是 Database 也是 Data Warehouse,所以天然就能滿足 HTAP 這個場景。
但是光有 HTAP 是不夠的,未來是一個多模數據庫的時代,首先要有很好的 OLTP 和 OLAP 的能力和性能,其次要支持實時增量物化視圖做數據的 Instant Transform、文本搜索、向量搜索、文檔數據存儲和查詢,甚至還要支持對湖上數據的查詢,因此我們提出了 Data Warebase 的概念,它是 Database+Data Warehouse 的合集,是未來多模數據庫的一個新範式。
Data Warebase 與流批一體的區別
流批一體這個概念其實最早就是我們提出的。2015 年我加入淘寶的時候負責商品搜索的數據加工,當時很多商品的屬性和指標是非實時的,我們引入 Flink 解決了數據實時性的問題,還用 Flink 的 Batch 能力解決了批計算問題,在那個場景下將實時增量計算和批計算做到了計算引擎和 SQL 的統一,初步實現了流批一體化。
但這並不是最優的架構,因為 Flink 的運維和成本比較高,我們認為物化視圖是解決流批一體的最佳方案,用户可以根據對每個物化視圖的 freshness 需要來決定它們的刷新頻率。這樣就完美地實現了實時、近實時、以及 T+1 離線計算的 SQL 與引擎的統一,且運維和開發的易用性極好。
可惜的是,當前大部分的數據庫或數據倉庫提供的物化視圖都不支持增量刷新,導致實時刷新物化視圖的成本很高。ProtonBase 投入大量精力實現了物化視圖的增量刷新,成功打造了一款性價比極致的流批一體計算引擎。
Data Warebase 與湖倉一體的區別
按照我的理解,湖倉一體只需要滿足兩個條件:第一是要打通數據倉庫和數據湖兩套體系,讓數據和計算在湖與倉之間自由流動;第二是數據倉庫能夠對接標準的湖存儲,做外表的查詢、計算和寫入。ProtonBase 支持 Iceberg,Delta Lake,以及 Hive (ORC/Parquet)等主流湖存儲的互聯互通和外表查詢,這意味着 Data Warebase 同時也是支持湖倉一體的數據引擎。
Q7:隨着 AI 技術的⻜速發展,數據與 AI 的融合越來越緊密,這將為企業數據管理和應用帶來全新的變革。在 AI 時代,您還洞察到企業對數據庫和大數據的需求有哪些變動?
王紹翾: 我分享兩個觀察,一是在數據庫領域,PostgreSQL 會變成非常主流的數據庫。首先全球幾乎所有的新興數據庫都是基於 PostgreSQL API 的。包括被 Databricks 收購的 Neon、被 Snowflake 收購的 Crunchy Data、剛融資的 Supabase、以及最近爆火的 DuckDB、還有 CockroachDB、Yugabyte 等新型分佈式數據庫公司,無一例外的都選擇了 PostgreSQL 作為查詢 API。所有的 AI 公司也幾乎無一例外都選用了 PostgreSQL,如 OpenAI、Cursor、Notion、Perplexity、Anthropic 等。
大家選擇 PostgreSQL 的原因很簡單, PostgreSQL 非常標準且擁有強大的 Extension,一套 API 幾乎定義了 Data API 所需要的所有能力:OLTP、OLAP、 JSON、GIS、全文檢索、向量檢索。這正是 AI 時代應用和 Agent 所需要的終極 All-In-One 數據庫解決方案。ProtonBase 從創立之初就預見到這個趨勢,並基於 PostgreSQL API 構建,提前佈局 AI 時代的標準接口。OpenAI o1 發佈之後 AI 的 reasoning 變得非常強大,加上 Anthropic 提出 MCP 的規範後,使得 language to SQL 成為可能。在 ProtonBase 上使用 PG 標準的 MCP 再配合強大的 AI 模型就可以直接實現很豐富的 language to SQL 的應用場景。
二是在大數據領域,未來數據湖的標準是 Iceberg。我們看到世界上兩個最大的數據巨頭 ,一個是 Snowflake,主推的是 Iceberg ,另一個是 Databricks,以前主推 Delta Lake ,後來收購了 Apache Iceberg 背後的公司 Tabular。所以我們可以預見到未來企業的數據湖基本都會圍繞着 Iceberg 構建,ProtonBase 也很好地對接了 Iceberg 數據湖,完善了湖倉一體的能力。
Q8:創業 4 年,您對其他 AI 和數據的同行或者創業者有哪些建議分享?
王紹翾: 一路走來還是學到很多,邊做邊學。有幾個感觸最深的點:
第一點就是需要想清楚作為創業公司自己的產品 PMF 是什麼?客户是誰?如何賣給客户?在這個過程中你的產品能力一定要在這個領域最好是第一,最差也要在前三。ToB 是 Value Selling(價值銷售)和 Solution Selling(解決方案銷售),對一家創業公司而言,想清楚自己產品的 PMF 和打造好產品的競爭力至關重要。
其次,前期要專注於服務大客户。因為大客户的挑戰和場景非常多且複雜,他們往往代表了其所在行業最大的挑戰,如果能解決好大客户的問題,也會極大提升你在此行業中的影響力和公信力。
最後就是 ToB 業務繞不開的話題:全球化和出海。這是一個必選項,中國有大量卓越的軟件工程師能夠做出世界一流的產品,我們需要把這些產品和能力輸出,在全球做生意,把利潤帶回來, “Made in China,Sold Global” 是我們這代人的使命。