动态

详情 返回 返回

雲棲實錄|Hologres 4.0全新發布:AI時代的一站式多模態分析平台 - 动态 详情

2025年雲棲大會,Hologres發佈全新4.0版本升級,以“AI時代的一站式多模態分析平台”為核心理念,全面展示了Hologres在結構化、半結構化與非結構化數據分析能力上的重大突破,特別是在OLAP分析、點查、向量檢索、全文檢索、湖倉協同及AI Function集成等方面的領先優勢,刷新ClickBench、JSONBench、VectorDBBench等多項榜單,登頂第一。
image.png

直播回顧 >>
image.png

一、AI時代的多模態分析從割裂到統一

1.1 AI的飛速發展帶來多模態分析的旺盛需求

隨着人工智能技術的深入發展,企業對數據的利用已不再侷限於傳統的結構化數據分析。越來越多的行業開始依賴多模態數據進行智能決策,涵蓋商品推薦、駕駛行為分析、金融風控、教育個性化等多個場景。這些場景普遍具備一個共同特徵:數據形態多樣、分析需求複雜、檢索方式多元

以電商行業為例,用户不僅需要通過關鍵詞搜索商品,還期望實現“以圖搜圖”或“以文搜圖”的智能推薦;在智能駕駛領域,車輛採集的信號數據既包括車速、電池温度等結構化字段,也包含圖像描述、軌跡圖片等非結構化信息,需支持按VIN號點查、多維統計分析、相似圖像檢索等多種操作;遊戲行業則面臨直播內容生成、玩家行為反作弊、個性化內容推送等挑戰;金融與教育行業同樣依賴合同文本合規審查、個性化投資建議、以圖搜題等高級功能。
image.png
用智能駕駛一個典型的場景舉例,可以看到智能駕駛場景中,採集的車機各種信號數據,以大寬表的形式存儲在數據庫中。這些信號數據通常會包含結構化數據(車輛狀態、車機版本等)、半結構化數據(車機信號)、非結構化數據(軌跡照片等)。在業務應用的時候,要進行點查、OLAP分析、全文檢索、向量檢索、混合檢索等多種場景。

AI時代的應用需要在一個統一平台上完成OLAP分析、點查服務、全文檢索、向量搜索以及AI推理等多種能力的融合使用。然而,傳統架構往往依賴多個獨立引擎協同工作,導致系統複雜、成本高昂、數據不一致等問題頻發。
image.png

1.2 傳統多模態分析架構的痛點:N個引擎帶來的高成本與低效率

當前主流的數據分析架構通常採用“數據分層+多引擎”模式。

  • 計算層-數據源經過Flink、Spark等實時或離線計算引擎處理後,分別寫入不同的專用系統
  • OLAP 分析 - 典型產品包括 ClickHouse、Doris 等
  • 全文檢索 - 典型產品包括 開源Elasticsearch、Solr 等
  • 向量檢索 - 典型產品包括 Milvus、Faiss 等
  • KV點查 - 典型產品包括 Redis、HBase 等
  • 時序 - 典型產品包括 InfluxDB、TSDB等
  • 寬表 - 典型產品包括 HBase 等

這種架構雖然能在單一能力上達到較高性能,但帶來了四大核心問題:

  1. 開發效率低:需為每個引擎適配數據格式,維護N條同步鏈路,管理N份元數據,開發週期長且易出錯。
  2. 存儲與計算成本高:同一份數據被複制到多個引擎中,造成嚴重的存儲冗餘;各引擎資源獨立,無法共享,資源利用率低下。
  3. 運維管理困難:需同時運維N個引擎,故障排查複雜,SLA保障難度大。
  4. 數據對齊困難:由於各系統寫入延遲不同,極易出現“能搜到卻查不到”的一致性問題,嚴重影響業務準確性。

更為關鍵的是,當涉及跨模態查詢(如“查找電池温度高於40℃且圖像中有人行橫道的車輛記錄”)時,必須在應用層手動拼接多個查詢結果,邏輯複雜且性能低下。
image.png

1.3 Hologres:替換多種分析引擎,簡化技術架構

針對上述痛點,Hologres 4.0提出全新HSAP 2.0 分析檢索一體化架構(Hybrid Search/Analytics Processing)。基於單一引擎實現多模態數據的統一存儲、統一計算與統一查詢。該架構摒棄了傳統的多引擎拼接模式,將OLAP分析、點查服務、全文檢索、向量搜索、時序處理、KV寬表等能力深度集成於Hologres內部,形成真正的“六邊形戰士”。新架構的核心優勢體現在幾個方面:

  • 簡化技術架構:用户只需管理一個引擎,大幅簡化系統複雜度。
  • 降低存儲冗餘:所有數據僅存儲一次,避免多份冗餘,顯著降低存儲成本。數據天然對齊,杜絕“搜到但查不到、查不對”的一致性問題。
  • 提高加工效率:通過Dynamic Table實現近實時增量加工,支持從ODS到ADS層的自動分層,無需多寫或多鏈路同步。
  • 統一開發接口:開發者可通過標準SQL完成從點查到複雜分析、從文本檢索到向量搜索的全場景操作。
  • 成本與管理:Hologres支持Serverless查詢模式,按Query級別彈性伸縮資源

二、Hologres 4.0架構:多模融合的一站式AI數據分析平台

2.1 Hologres發展歷程:從HSAP 1.0到HSAP 2.0的演進

Hologres為高性能分析而生,自2020年推出以來,始終走在大數據分析技術前沿。發展脈絡清晰地反映了行業分析需求的變遷:

  • Hologres 1.0(HSAP 1.0):首次提出“分析服務一體化”理念,將OLAP分析與KV點查能力融合,解決傳統數倉與在線服務分離的問題,相關架構論文入選VLDB 2020。
  • Hologres 2.0:面對成本與穩定性難題,強化資源隔離與彈性能力,支持計算組實例化部署,並原生支持JSONB列式存儲,提升半結構化數據處理效率。
  • Hologres 3.0:邁向實時湖倉一體化,支持MaxCompute、Paimon、Iceberg等開放數據湖格式,通過Dynamic Table實現湖上增量計算,替代傳統Lambda架構。
  • Hologres 4.0(HSAP 2.0):Data+AI一體化架構火熱,全面升級為“分析檢索一體化”平台,集成向量、全文、混合檢索能力,內置AI Function,支持大模型SQL調用,成為AI時代的全棧數據分析引擎。

面對AI對多模態的旺盛需求,Hologres正從一個高性能結構化數據分析引擎,逐步成長為支撐AI原生應用的多模態一站式數據分析基礎設施。

2.2 Hologres 4.0架構:多模融合的一站式AI數據分析平台

Hologres 4.0的整體架構圍繞“多模態分析檢索 all-in-one”設計,實現“一份數據、一份計算、多模分析”的一站式目標,一條SQL即可完成從數據接入、AI加工到多模查詢的全流程。

數據存儲層

支持三類數據源:

  • 內部存儲:結構化與半結構化數據(如向量、文本、JSON),支持高效列存與索引。
  • 數據湖:無縫對接MaxCompute、Paimon、Iceberg等湖格式,實現湖倉一體。
  • 非結構化數據:通過Object Table接入OSS中的圖片、PDF、PPT、視頻等文件,將其映射為可查詢的表結構。

數據加工層

依託Dynamic Table能力,實現近實時增量計算。用户可聲明目標表的新鮮度(如1分鐘),系統自動根據上游變化增量刷新結果表,支持湖到倉、倉到倉、湖到湖等多種加工模式,顯著降低資源消耗。

AI能力層

集成豐富的AI Function,基於阿里雲GPU算力池,內置統一Qwen等大模型能力,通過SQL即可調用大模型進行推理,支持內容生成與轉換(ai_gen、ai_translate)、文本理解與分析(ai_classify、ai_analyze_sentiment)、向量化與切片(ai_embed、ai_chunk)、數據安全(ai_mask)等函數。

數據分析層

提供統一SQL接口,支持五種核心查詢模式:

  • 點查:主鍵或非主鍵毫秒級檢索
  • OLAP分析:複雜聚合、Join、窗口函數
  • 全文檢索:基於Tantivy引擎實現高性能BM25計算,支持召回杭景
  • 向量檢索:高召回率下的近似最近鄰搜索
  • 混合檢索:標量、向量、全文條件聯合查詢

2.3 OLAP與點查:刷新ClickBench/JSONBench多項性能榜單

OLAP分析是Hologres的強項,在之前的TPC-H 30000GB性能測試中排行世界第一。其高性能的優勢在於寫入即可查,無需等待任何延遲,確保數據實時性。Hologre 4.0在OLAP分析能力上持續刷新各項幫當成績:

  • ClickBench 內表性能中國第一
  • 湖表(Paimon)性能對比3.0提升100%,證明其在開放湖格式上的強大兼容性
  • JSONBench 在10億行數據集下,性能中國第一
  • 點查場景引入全局二級索引,非主鍵點查QPS相比無索引時提升65倍

Hologres讓雲上客户跟隨版本更新即可實現性能優化,享受雲上技術紅利

2.4 向量檢索:登頂VectorDBBench性價比榜單四項第一

向量檢索已成為AI時代的“水電煤”,是連接大模型與現實世界的關鍵橋樑。Hologres 4.0在該領域實現全面突破。

全新自研的內存+磁盤混合索引技術與RabitQ量化算法,在同等成本下,性能遠超行業主流產品,以20%的內存成本實現95%以上的檢索性能,單分片可支持0.5億向量,助力企業低成本實現千億向量數據的毫秒級檢索,在VectorDBBench基準測試中(已提交社區審核),Hologres以一年約1000美元的成本預算,在99%高召回率下實現斷崖式領先的QPS,性能約為第二名的4倍以上,登頂 VectorDBBench 性價比榜單四項第一,實現高性能向量檢索普惠化,成為全球最快向量數據庫!** 這一成績得益於其Hologres 4.0多重優化技術:

  • BSA剪枝框架:第一階段使用壓縮向量和近似距離進行初篩,第二階段用原始向量精確重排,速度提升1.4x~2.2x。
  • 精細IO優化:異步並行IO、緩存機制、Pangu直讀直寫、預讀取等手段顯著降低磁盤索引查詢延遲。
  • 混合索引架構:內存中存儲低精度索引(Rabitq),磁盤存儲高精度索引(PAG圖-聚類混合索引),通過elias-fano編碼壓縮鄰接表,內存佔用減少80%,性能損失小於5%。

更重要的是,Hologres保證一致性事務,確保標量與向量數據始終對齊,徹底解決“搜到卻查不到”的行業難題。

2.5 高性能全文檢索,標量+全文+向量一站式分析

Hologres 4.0正式發佈原生全文檢索能力,基於高性能開源引擎Tantivy構建,採用BM25算法實現精準召回。

  • 支持多種檢索模式:關鍵詞、 (帶距離的)短語、自然語言檢索
  • 多樣的分詞器:simple、standard、icu、whitespace、keyword、ik、jieba
  • 支持BM25打分(不僅能做檢索,還能做召回)
  • 標量 + 全文 + 向量 混合檢索

Hologres4.0通過標量+全文+向量混合檢索一站式分析,實現跨模態精準定位。在搜索引擎、企業文檔管理系統、日誌分析平台等場景,幫助業務在海量信息非結構化文本數據中實現精準定位和知識挖掘

三、構建AI時代的一站式多模態分析平台

Hologres 4.0將OLAP分析、點查服務、全文檢索、向量搜索、時序處理、KV寬表集於一體,但是AI的發展日新月異,一站式的多模態數據分析平台仍需要多項企業級能力,不斷提升企業數據處理與分析的效率。其中包含了3項Hologres 4.0更新的能力:

  • Object Table-非結構化數據訪問

以表的形式直接訪問OSS中的非結構化文件(如圖片、PDF),並自動同步文件元信息。用户無需將數據遷入倉內,即可進行查詢與加工。

  • Dynamic Table-自動增量數據加工

增量刷新能力,系統可自動感知湖上數據變化(新增、修改、刪除),並觸發AI Function進行實時處理

  • AI Function

通過SQL直接調用大模型進行推理,例如當OSS中新增一張圖片,Dynamic Table會自動調用ai_embed生成向量,調用ai_gen生成圖文描述,並將結果寫入目標表。

  • 一站式多模態數據分析

數據寫入Hologres,進行一站式、高性能、多模態數據分析。整個鏈路聲明式定義,僅需幾行SQL即可完成,大幅降低開發門檻與運維成本。

3.1 Hologres 4.0-AI Function:SQL化調用大模型,簡化AI開發

Hologres 4.0內置豐富的AI Function,覆蓋內容生成、文本理解、向量化、數據安全四大類:

  • 內容生成與轉換ai_gen(智能生成)、ai_translate(多語言翻譯)、ai_summarize(文本摘要)
  • 文本理解與分析ai_classify(文本分類)、ai_extract(信息抽取)、ai_analyze_sentiment(情感分析)
  • 向量化與切片ai_embed(Embedding生成)、ai_chunk(長文本分段)
  • 數據安全ai_mask(敏感信息脱敏)

這些函數可直接在SQL中調用,無需編寫UDF或維護外部服務。例如,ai_embed(file)可將圖片或文本轉換為向量,ai_gen('請描述圖片', file)可生成圖文摘要。

所有AI計算基於阿里雲GPU算力池,用户無需預置GPU資源,實現“開箱即用”的大模型體驗。

3.2 Demo:湖上圖片的自動加工與多模檢索

以下是一個完整的端到端示例,展示如何利用Hologres 4.0實現湖上圖片的自動分析與檢索。

步驟1:創建Object Table

-- object table
CREATE OBJECT TABLE image_object_table
WITH (
   path='oss://ai-demo-datasets/unsplash-25k/part1/', 
  "oss_endpoint" = 'oss-cn-beijing-internal.aliyuncs.com',
  "role_arn" = '***'
);
REFRESH OBJECT TABLE image_object_table;

步驟2:定義Dynamic Table調用AI Function進行增量加工

CREATE DYNAMIC TABLE image_embedding_table
WITH (
    auto_refresh_mode='incremental',
    freshness='1 minutes',
    vectors = '{
      "vector": {
        "algorithm": "HGraph",
        "distance_method": "Cosine",
        "builder_params": {
        "base_quantization_type": "sq8_uniform",
         …}
      }}',
) AS SELECT object_uri, ai_embed(file) as vector, 
ai_gen('請用一句話描述圖片內容', file) as desc
FROM image_object_table;
CREATE INDEX idx1 ON image_object_table USING FULLTEXT (desc);

步驟3:一站式多模態查詢

  • 文搜圖(向量):查找與“兩隻狗在雪中玩耍”最相似的圖片
  • 文搜圖(全文):在圖文描述中搜索“Two dogs play in the snow”
  • 圖搜圖:上傳一張圖片,查找相似圖像

整個流程無需任何外部調度或ETL作業,完全由Hologres自動完成,真正實現“一鍵部署、自動加工、即席分析”。

四、Hologres 4.0:AI時代的一站式多模態分析平台

Hologres已廣泛應用於電商、遊戲、智能駕駛、金融、教育等行業。理想汽車基於Hologres+Flink構建了萬億車聯網信號毫秒級響應實時分析平台,在成本與原先持平的情況下,寫入性能提升200%,實現萬億數據秒級寫入。通過Hologres的JSONB存儲分析能力支持10000+車機信號動態增減,滿意業務靈活性需求。在增量場景使用Hologres Dynamic Table增量加工並使用Serverless資源按量付費,成本降低35%,需求交付效率提升10倍。Hologres在高性能實時讀寫、增量計算、計算組隔離、Serverless,JSONB智能壓縮存儲等核心技術上突破,成功支撐理想汽車在智能座艙、智能診斷等核心業務鏈路迭代,實現萬億級數據洪流下的秒級決策,助力新能源汽車在智駕場景實現多模一站式高性能AI數據分析,加速產業智能化進程。

Hologres 4.0的發佈,不僅是版本的迭代,更是理念的革新。它重新定義了AI時代的數據分析範式,實現了向量 + 全文 + 標量的一站式多模混合查詢,通過結合內置的AI Function一鍵部署大模型,構建面向AI時代的一站式、多模態、高性能分析平台。數據分析不應再是割裂的工具組合,而應是一個統一、高效、智能的平台。 未來,Hologres將繼續深化Data+AI一體化融合,探索更多AI原生應用場景,助力企業構建智能化數據驅動體系。

user avatar actionopensource 头像 fengliudedaxiang_esnzgz 头像 youqingyouyidejidan 头像
点赞 3 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.