雲棲實錄 | AI原生搜索引擎：Elasticsearch 換“芯”——AI原生搜索內核增強技術 Detail - 阿里雲,elasticsearch,搜索阿里雲大數據AI Blog

9月26日，雲棲大會AI搜索與向量引擎分論壇上，阿里雲智能集團技術專家魏子珺和愛橙科技技術專家周文喆，詳細闡釋了 “AI 原生搜索引擎：Elasticsearch 換芯” 技術主題，重點圍繞 AI 原生搜索內核增強技術的升級與替換。通過核心能力重構，讓 Elasticsearch 在 AI 原生時代具備更強的多模態理解、自然語言處理以及深度任務執行能力，為搜索場景帶來性能、智能化與可擴展性的大幅提升。這標誌着 AI 搜索技術從傳統架構邁向面向大模型與智能代理的新階段，為企業和開發者提供更高效、精準、智能的檢索體驗奠定基礎。

一、構建企業級 AI 搜索的挑戰與核心需求

在企業級 AI 搜索的落地過程中，安全性與穩定性是基礎要求，產品性價比是關鍵考量，而技術的領先性更是可持續發展的必要條件。但在實踐中，企業往往會面臨三類核心挑戰：

成本開銷大
1. 數據量持續增長，尤其在向量檢索場景下，存儲成本居高不下；
2. 內核優化能力受限，計算資源消耗不斷攀升；
3. 缺乏靈活的資源彈性擴縮容機制。
技術複雜度高
1. 需要 AI 模型完成文檔解析、語義切分與向量化處理；
2. 搜索引擎必須支持多模態與混合檢索；
3. 在生成式 AI 搜索中，還需評估搜索結果的質量與相關性。
運維難度大
1. 開源 Elasticsearch 僅提供基礎監控能力，複雜指標需二次開發封裝；
2. 數據備份與集羣高可用性保障依賴人工維護，運維壓力高。

基於這些痛點，企業級 AI 搜索普遍有四項核心需求：

在檢索效率與存儲成本之間實現高性價比平衡；
擁有先進且完善的 AI 搜索增強能力；
具備靈活可擴縮的彈性資源管理機制；
確保系統高可用性與業務連續性。

這些挑戰與需求正是驅動阿里雲 Elasticsearch 換“芯”升級的根本原因，也為後續架構優化與功能增強明確了發展方向——讓搜索引擎從簡單的信息檢索工具，進化為適配複雜業務場景的主動智能解決方案。

二、阿里雲 Elasticsearch 面向 AI 搜索的引擎架構升級

阿里雲 Elasticsearch 針對 AI 搜索場景進行了全面的架構革新，從生態開放、企業特性、AI 能力增強到自研高性能內核，全方位滿足不同規模和複雜度的智能搜索需求。

1、阿里雲 Elasticsearch 的 AI 能力增強：

在 8.17 版本中，阿里雲 Elasticsearch AI 增強亮點包括：向量引擎迭代支持千億規模數據，並引入 Int8 與 BBQ 量化技術；混合檢索能力升級，通過 Retrievers 框架支持文本、標量、向量融合查詢；Inference Service 深度集成，使引擎可在查詢流程內直接調用外部模型，將 Embedding、Rerank 等步驟內置，全面提升 AI 原生搜索性能與智能化水平。

阿里雲 Elasticsearch 面向 AI搜索的引擎架構升級特性如下：

生態開放：全面兼容 Elasticsearch、Logstash、Kibana、Beats 等開源組件，實現數據的一站式接入、處理與可視化，支持多源數據統一管理。
企業特性：構建企業級安全與權限管理體系，結合機器學習與集中監控平台，實現豐富的運維指標與日誌分析，保障系統治理與運營可靠性。
AI 特性增強：提供高精度向量引擎及混合檢索（KNN、RRF、Linear、Rerank），支持多模態 AI 模型應用，並配備 AI 助手，顯著提升搜索的智能化、精準度與複雜任務處理能力。
自研高性能內核：引入 Serverless 索引服務、存算分離 OpenStore 架構、冷熱分離存儲、QoS 限流控制及時序存儲優化等技術，在確保高性能和穩定性的同時，大幅降低存儲與計算成本。

2、存算分離架構升級——OpenStore 支持高性能檢索場景

OpenStore 作為阿里雲 Elasticsearch（ES）的存算分離引擎。今年也全面升級了其架構——從最初僅支持日誌分析場景，進化為同時支持日誌分析與高性能檢索。最大的變化在於存儲底座的拓展：除了原有的 OSS 對象存儲，新增了盤古分佈式存儲支持，並採用 SSD 磁盤的盤古存儲方案。相比 OSS，這種架構的 I/O 延遲降低了數個數量級，可輕鬆滿足高性能檢索場景的低延遲需求。

OpenStore 存算分離引擎的核心技術能力主要包括三點：

三層存儲智能調度：由內存、本地盤和分佈式存儲構成的三層體系，由 OpenStore 引擎自動、智能調度，確保性能與成本的平衡。
數據生命週期自適應複製：可根據數據生命週期自動選擇物理複製或軟鏈複製，保障數據在秒級可見的同時不犧牲性能。
冷熱共享計算資源：實現冷熱數據共享計算資源，大幅降低集羣數據接入和管理的複雜度，並支持快速彈性擴縮容。

在成本優化方面，基於存算分離架構的 ES 取得了顯著成效：日誌場景成本下降約 70%，分析場景成本下降約 50%，通用檢索場景：成本下降約 40%

底層的雲原生管控與運維平台，融合了智能診斷與高級監控能力，可全局分析集羣健康狀態與潛在風險，多維度指標追蹤與異常分析支持系統在互聯網、零售、金融、交通、物流等多行業場景中保持高性能、穩定與可擴展性。

本次架構升級通過性能優化、成本控制與智能搜索能力提升，為企業構建新一代 AI 搜索引擎提供了強大的技術支撐。

3、一站式 RAG（Retrieval-Augmented Generation）解決方案

阿里雲 Elasticsearch 面向 AI 搜索的引擎架構升級，重點推出了一站式 RAG（Retrieval-Augmented Generation）解決方案，實現了從數據接入、在線查詢到智能體調用的全鏈路閉環，覆蓋模型服務、搜索引擎與評測優化等核心環節：

數據寫入階段：
通過 文檔解析模型 對知識庫內容進行識別與結構化抽取，經 語義驅動的多粒度切分模型 優化檢索片段，再由 文本向量化模型 生成稠密與稀疏向量，為索引構建提供高質量特徵。
在線查詢階段：
查詢分析模型 負責識別用户意圖並進行需求擴展；隨後 文本向量化 將查詢轉化為可用於 KNN、稠密與稀疏檢索的向量表示；最後藉助 提示工程與重排模型，生成最優 Prompt，並通過重排序與臨近片段擴展提升結果精度。
智能體查詢階段：
藉助 MCP Server 與 Knowledge Agent（Function Calling），可由 Agent 發起跨系統、多數據源的複合查詢，調用 Cluster API、Indices API、Search API 高效完成複雜任務分解與執行。
搜索引擎執行：
支持文本、稠密與稀疏向量的高效索引構建，並在檢索層融合多種向量類型進行 混合檢索，返回排序優化後的 TOP N 知識片段。
評測與反饋：
通過 RAG 測評服務對檢索與生成的端到端結果進行質量評估與迴路優化，實現持續提升。

這一全新架構不僅打通了數據處理—向量化檢索—智能重排—Agent 調用—結果評估的閉環鏈路，還大幅增強了 AI 搜索在語義理解、精準檢索與任務執行方面的能力，為企業級智能搜索提供了高性能、可擴展、可持續優化的技術底座。

4、雲原生內核架構升級：極致性能與架構創新

重磅發佈的基於c++從0到1自主研發的雲原生內核，在打造極致性能，在召回排序、聚合性能和向量檢索全方位性能大幅提升。

核心的架構創新是雲原生內核支持直接讀取ES索引文件，這樣無需重建索引即可使用雲原生內核，同時100%兼容Elasticsearch API 接口。

更多技術解讀，在第四章有詳細分享。

三、阿里雲 Elasticsearch 支撐 AI 搜索的關鍵技術解析

阿里雲 Elasticsearch 持續在向量檢索這一高資源消耗場景上投入大量核心研發，目標是打造業內最優秀的向量引擎，這不僅僅是一句口號，而是體現在諸多技術細節中：

Elasticsearch 致力於打造最好的向量引擎

內存友好模式：使用 MMAP 方式加載索引，避免將整個索引文件鎖定在內存中，有效防止內存溢出，保障服務穩定性。
多向量字段聯合檢索：支持同時檢索多個 kNN 字段，滿足多模態與多維度的檢索需求。
過濾機制靈活：將複雜 Filter 條件預計算成 bitmap result，在 HNSW 圖遍歷時直接過濾，性能與靈活性兼備。
深度優化底層引擎：ES 向量引擎基於 Lucene 自研，與索引構建、合併、查詢流程深度整合，減少額外開銷並做了大量工程優化。
GPU + CPU 混合架構：使用 GPU 加速向量索引構建過程，CPU 執行查詢，兼顧構建速度與成本效益。

Elasticsearch 向量引擎持續優化

雲原生內核在向量引擎上持續迭代優化，從執行效率、存儲成本到檢索能力，全鏈路加速 AI 原生搜索體驗。

VectorAPI 優化：利用 SIMD 指令加速向量相似度計算，查詢性能提升 5 倍。
多 Segment 優化：多 Segment 共享 GlobalQueue，實現多段查詢性能提升 2 倍。
Merge 優化：基於最大 Segment 優化構建算法，Merge 性能提升 2 倍。
堆內存構建優化：為 HNSW 圖添加鄰居時動態分配內存，堆內存佔用下降 4 倍。
Filter kNN 優化：基於 ACORN 算法降低相似度計算次數，Filter kNN性能最多提升 5 倍。
Early Termination 優化：控制計算次數，在高 Recall 查詢下性能提升 50%。
Ajdk 優化：針對 Int8 VectorAPI 去除類型轉換開銷，Int8 查詢性能提升 30%。
倚天 CPI 優化：優化 FFI 調用與相似度計算方法，Int8 查詢性能再提升 50%。

極致的成本節約 --- BBQ (Better Binary Quantization) 量化

非對稱量化：文檔向量存儲為 1bit，查詢向量使用 4bit 非對稱量化。
計算質心：計算所有向量的質心並歸一化，提升量化精度與召回率。
存儲校正值：為質心歸一化和量化存儲多個校正數據，提高搜索準確性。

在 100 億、1024 維的場景下，BBQ 量化可將機器需求從 225 台降至 11 台，機器資源節約節省資源 20 倍。

混合檢索技術—利用 Retrievers 框架實現組合查詢

雲原生內核在 Elasticsearch 中新增 Retrievers 框架，支持將多路查詢（如向量檢索與文本檢索）的結果以組合或嵌套的形式整合成單一路徑返回。框架內置多種結果融合方式，包括：

RRF（Reciprocal Rank Fusion）融合
Linear 加權融合
Reranker 重新排序
Rescore 二次評分

這一能力讓不同檢索類型的結果可以靈活組合，顯著提升多模態和混合搜索場景下的檢索效果與靈活性。

持續優化與開源貢獻

阿里雲不僅在自用產品中應用這些優化，還將部分能力開源，方便社區用户直接使用。
在高併發、多模態搜索、低成本大規模向量檢索等應用場景中，保持業內領先性能。

Inference Service --- 將模型調用整合到查詢流程

在全新架構中，阿里雲 Elasticsearch 通過 Inference API 將模型調用能力深度整合到查詢流程，實現了 AI 搜索的端到端智能化處理。系統由 AI 搜索開放內置平台與外部模型推理服務兩大部分構成，形成了完整的、可擴展的模型推理體系。

AI 搜索開放內置平台能力
文檔解析與切分：支持文檔解析、圖像解析與語義切片，為多模態內容檢索提供結構化輸入。向量表示：生成稠密或稀疏向量，可處理多語言文本，並具備向量降維能力以優化存儲與計算效率。查詢分析：提供意圖理解、問題擴展功能，並支持 NL2SQL 自然語言轉 SQL，實現“所問即所得”的結構化查詢。排序服務：通過重排模型優化檢索結果相關性。微調與評測：支持模型微調和效果評估，確保搜索結果在特定領域的精度與適配度。大模型服務：兼容搜索專屬大模型、通用大模型及第三方開源大模型，靈活適應不同業務場景。
外部模型推理服務支持
原生對接阿里雲百鍊、阿里雲人工智能平台 PAI 以及其他第三方模型平台，實現跨平台推理與融合能力。這一體系讓 AI 搜索從文檔解析、向量生成、查詢理解、結果重排、模型微調到多模型適配形成全鏈路閉環，不僅提升檢索的語義理解深度和查詢匹配精準度，更為複雜、多模態、多領域的搜索場景提供了強大的“芯”動能。

這一系列優化，使得阿里雲 Elasticsearch 不僅能在海量向量檢索任務中提供更穩定的服務、更靈活的查詢組合、更高效的底層執行，還為後續 AI 原生搜索在多模態、複雜條件組合、實時響應等場景中的落地打下堅實基礎。

四、雲原生內核重磅發佈：極致性能與架構創新並行

雲原生內核性能高提速

雲棲大會重磅發佈的基於 C++ 從0到1自主研發的雲原生內核——阿里雲 Elasticsearch 雲原生內核打造極致性能，在召回排序、聚合性能和向量檢索全方位性能大幅提升。通過高效 Native 實現 + 現代體系結構優化，顯著釋放了 CPU 潛能，使複雜查詢提速最高可達 6 倍。

高效 Native 實現：以 C++ 原生執行替代部分 Java 路徑，覆蓋 Lucene 索引讀取、查詢召回、聚合計算以及 ANN 向量索引構建與讀取，降低執行開銷。
現代體系結構優化：支持批次化執行、消除流水線阻塞，並引入 SIMD 向量化計算加速，從執行鏈路上提升 IPC 性能。
複雜查詢提速可達6倍：100% 查詢支持，兼容 Elasticsearch API 及上下游生態，實現性能提升的同時無縫適配現有系統。

這一優化路徑讓阿里雲 ES 在多類型、複雜查詢場景中保持穩定低延遲，為 AI 原生搜索的高併發處理提供了堅實基礎。

雲原生內核-DSL查詢加速

在最新的雲原生內核中，阿里雲對 Elasticsearch 的 DSL 查詢處理性能進行了全面升級。基於 esrally 官方數據集和真實場景壓測，Native 執行引擎在多類查詢中顯著優於傳統 JVM 路徑，最高吞吐加速比達到 6.83 倍。

在不同場景中，優化效果各有側重：

多字段聚合（MultiTerms）加速最為明顯，提升 6.83x；
排序類查詢（Query+Sort）最高加速 3.85x；
Terms 和 DateHist 類型的聚合查詢提升最高可達 3.54x，其他時間聚合和排序場景也穩定提升在 2~3 倍區間。

除了吞吐性能優化，雲原生內核在查詢延遲方面也針對真實業務場景進行了強化。在單一重複查詢（單態壓測）下，原 ES JVM 可利用穩定路徑降低延遲，但在混合多類查詢（動態壓測）中，JVM 路徑優化失效，原版延遲顯著增加；Native 執行引擎則不依賴 JVM 特性，即使在動態場景中也能保持穩定低延遲。

這意味着在高併發、複雜查詢模式下，新的內核可以同時保障更高吞吐量與更低響應時間，尤其適合 AI 原生搜索對實時性要求極高的應用場景。

雲原生內核-ANN向量檢索

在雲原生內核的加持下，阿里雲 Elasticsearch 的 ANN（近似最近鄰）向量檢索能力實現了跨越式提升。不僅大幅提升查詢吞吐與響應速度、顯著降低內存和算力開銷，還可以支持更復雜的過濾和多模態搜索場景。

普通向量查詢（查詢無過濾條件）

在 gist 數據集（960維，1百萬數據）上的基準測試中，阿里雲 Elasticsearch 雲原生內核的 Native 執行引擎相比原生 ES 8.17 展現了顯著的吞吐與延遲優勢。

在常見的 top10 recall@99 場景中，Native 執行吞吐量量，提升了 1 倍以上！

由此可見，Native 執行在相同召回率下能夠保持更低的響應時間，實現更高的併發能力與查詢效率。

含有過濾條件的向量查詢

隨着被排除文檔比例的提高，雲原生內核向量索引的性能優勢愈發凸顯，其吞吐量提升比例隨之增大，在某些場景下甚至能達到ES原生檢索的5倍。

這些能力讓雲原生內核的阿里雲 Elasticsearch 的 ANN（近似最近鄰）向量檢索在不同場景的整體吞吐量實現顯著提升！

普通向量查詢最高提升 170%，帶過濾向量查詢最高提升 400%！
雲原生內核-ANN向量檢索更多特性

支持更豐富的向量索引類型：包括基於聚類的 QC 方法、用於大規模數據的DiskANN 方法（針對大規模數據場景）、rabitQ 等。
支持GPU加速檢索：在8核 T4 GPU上，相比基礎 HNSW 檢索，相同recall 下可以提升6~8倍吞吐。
支持查詢內併發：支持單查詢內部併發，併發數<=4時，可以實現線性加速比，最高可實現6~7倍加速。

四、結尾

阿里雲 Elasticsearch 打通了 內核優化 + RAG 閉環方案 + 雲原生推理平台 三大能力模塊，換“芯” 不只是簡單的引擎升級，而是面向 AI 原生時代的系統性能力重構。讓搜索引擎從被動的信息檢索工具，躍升為面向複雜任務的主動智能解決方案，在多模態、高精度、低延遲的智能檢索場景中，幫助企業構建面向未來的搜索中樞。
“未來請與阿里雲一起，擁抱 AI 原生搜索時代，讓搜索不止於搜索，讓智能驅動業務增長。”

阿里雲大數據AI Blog

@elhix0bg

Tags

人工智能 (486)

Python (289)

深度學習 (133)

機器學習 (105)

大數據 (96)

SQL (72)

數據分析 (68)

阿里雲 (65)

雲計算 (56)

雲原生 (49)

elasticsearch (48)

分佈式 (36)

Stories

雲棲實錄 | AI原生搜索引擎：Elasticsearch 換“芯”——AI原生搜索內核增強技術 - Stories Detail

一、構建企業級 AI 搜索的挑戰與核心需求