EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破詳情 - 阿里雲,StarRocks,Stella,OLAP,Lakehouse,數據倉庫,大數據阿里雲大數據AI技術博客

在今年雲棲大會上，EMR Serverless Stella 1.0正式發佈，這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了 Stella 在存算分離架構、Lakehouse 場景以及全文檢索等三大核心場景下的深度優化經驗，為業界提供了大規模 OLAP 系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。

站在巨人肩膀上：與 StarRocks 開源社區的深度合作

阿里雲與StarRocks開源社區的合作可以追溯到2021年，從開源第一天起就建立了深度合作關係。在過去四年中，雙方在源碼共創、產品發佈和技術優化方面積累了豐富的經驗。

合作歷程回顧：

2021年：開啓源碼共創，重點推動數據湖分析相關框架和性能優化
2022年3月：推出EMR半托管StarRocks形態
2023年：響應市場需求，推出全託管產品形態
2024年：正式商業化存算分離版本

隨着產品的成熟，阿里雲EMR已積累數百家B端企業客户。“我們始終站在巨人的肩膀上，”阿里雲開源大數據平台OLAP引擎負責人周康表示，“Stella 所有功能和優化都會逐步回饋給社區，同時確保API層面與開源版本完全兼容。”

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破_Lakehouse

Lakehouse 成為業界共識：Stella 應運而生

2024年，阿里雲正式發佈 OpenLake 方案，標誌着 Lakehouse 架構在數據基礎設施領域的全面落地：

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破_Stella_02

2024雲棲大會重磅發佈OpenLake解決方案，StarRocks 為 OLAP場景核心組件

伴隨這一趨勢，Lakehouse（數據湖倉一體）已成為國內外頭部公司的業界共識：

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破_阿里雲_03

海外Lakehouse發展趨勢 Snowflake/Databricks/BigQuery + Iceberg/Delta/Hudi

阿里雲推出了 OpenLake 一體化湖倉解決方案，StarRocks 在其中擔任核心 OLAP 引擎角色。然而，在大規模生產環境中，StarRocks 在存算分離架構和湖表查詢方面仍有優化空間。Stella 項目正是為了應對這些挑戰而生。通過在調度、查詢優化、執行引擎和存儲引擎四個層面的全面改進，Stella 1.0 針對幾十 TB 甚至 PB 級數據場景，解決了事務機制、Compaction 效率、查詢性能、元數據管理等一系列生產環境痛點。

Stella 1.0 三大核心場景突破

EMR Serverless Stella 1.0版本於今年5月正式發佈，主要聚焦三大核心技術能力的重大突破：

一、存算分離：性能和穩定性大幅提升

Stella 1.0 在存算分離架構下實現了三大突破：

1. 冷查性能大幅提升

實現 IO 合併，減少對象存儲訪問次數
優化 Compaction 調度器，大幅減少小文件數量
針對輕量級 ETL 場景優化負載調度

2. 寫入性能保障

開發 Batch Publish 能力，解決串行化導入瓶頸
推出 Collocated PK Index，避免緩存盤和索引盤互相影響
優化 FE 側 Tablet 創建刪除效率

3. 緩存利用率優化

引入 Index Cache 和 Meta Data Cache，提升元數據訪問速度
實現自適應 IO Stream，智能選擇本地緩存或遠端訪問
針對 ETL 場景優化空間利用

在TPC-H 10T基準測試中，存算分離版本的Stella相比上一版本**性能提升超過120%**，充分展現了雲原生架構的技術優勢。

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破_StarRocks_04

二、Paimon 湖表查詢：Co-design 驅動性能飛躍

Stella 1.0在Paimon表分析方面，重點聚焦在三個方向的提升：

1. 數據讀寫效率提升

實現自適應 Batch Size 優化
支持Native Paimon Writer，性能大幅提升

2. 元數據訪問優化

針對 Manifest 數量眾多場景，實現分佈式解析能力
適配異步 Splits 調度框架
優化 Manifest Cache 策略

3. 深度集成阿里雲 DLF 2.x

與 Data Lake Formation 產品深度整合
藉助 DLF 能力提升 Paimon 查詢和寫入的性能與穩定性
針對DV表實現Native讀取優化

Stella在Lakehouse場景下查詢Paimon下性能的提升非常明顯：

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破_OLAP_05

雖然 Flink + Paimon 已成為成熟的實時入湖方案，但計算引擎與 Paimon 存儲的查詢優化結合仍有巨大提升空間。Stella 與 Paimon 將在多個方便持續進行Co-Design，更多優化成果將在後續版本中發佈。

三、全文檢索：打造高性能、高可用的文本分析能力

Stella 1.0 正式推出全文檢索能力，支持高效、精準的文本查詢。

架構重構：對 Inverted Index（倒排索引）整體解決方案進行架構優化
存算分離主鍵表支持：新增主鍵表全文檢索能力，實現高效精準的查詢能力
小文件合併：解決存算分離架構下的“性能殺手”問題（單個 Segment 產生十幾個小文件）

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破_Stella_06

文本過濾性能benchmark: Stella vs EMR StarRocks 3.3

目前，全文檢索功能已在阿里集團內部和雲上客户中投入使用，所有優化代碼已通過 PR 提交至 StarRocks 開源社區。

技術創新路線圖持續演進

面向未來，Stella引擎制定了清晰的技術發展路線圖，在四個關鍵領域持續深耕：

邁向Stella 2.0時代：輕量 ETL Production Ready
全面強化輕量級 ETL 能力，打通從數據接入、轉換到分析的端到端鏈路，使用户無需依賴外部調度系統即可高效完成日常數據加工任務，真正實現“開箱即用、生產就緒”。
Lake Optimizer：湖表性能全面對齊甚至超越內表
推出專為開放數據湖設計的 Lake Optimizer，顯著提升 Apache Paimon 等湖表格式的查詢性能，讓湖表在複雜分析場景中媲美甚至超越傳統內表體驗。
智能化 Background Job Service：徹底釋放用户運維負擔
針對企業用户長期面臨的內表運維複雜、資源爭搶等問題，Stella 將推出智能化後台作業服務，自動處理 compaction、索引構建、統計信息收集等任務，實現高智能化的自治運維，大幅提升系統穩定性與資源效率。
全文檢索與向量檢索能力持續提升
在已有的高性能 OLAP 基礎上，進一步融合全文檢索與向量檢索能力，支持非結構化與多模態數據的統一分析，為 AI 原生應用、智能搜索等新興場景提供底層引擎支撐。

這四大方向不僅體現了 Stella 對 Lakehouse 架構的深度適配，更彰顯了其從“高性能分析引擎”向“智能數據平台核心引擎”演進的戰略決心。隨着這些能力的逐步落地，Stella 將為企業用户提供更開放、更智能、更易用的下一代實時分析體驗。

技術探索與社區協作深度融合

Stella引擎在技術架構探索方面持續深化與開源社區的合作：

Lakehouse架構能力的持續拓展體現了Stella引擎的前瞻性設計理念。在現有Lakehouse架構基礎上，系統將支持更多檢索功能，為企業的多元化分析需求提供全面支持。向量搜索技術是與Apache Paimon深度集成的創新探索，在AI和大數據時代，向量搜索能力將成為差異化的技術優勢。

開源社區貢獻亮點

JSON等半結構化數據處理能力持續增強，推動整個生態發展
大規模場景技術實踐經驗分享，為社區貢獻寶貴技術智慧
與Apache Paimon團隊深度技術合作，確保生態整合持續優化
所有優化方案回饋開源社區，推動開源生態系統發展進步

開源社區的深度貢獻體現了Stella團隊的技術責任感和開放合作精神。JSON等半結構化數據處理能力的持續增強將推動整個生態的發展，為企業在數字化轉型過程中處理多樣化數據提供更強支持。大規模場景下的技術實踐經驗分享不僅展示技術實力，更為社區貢獻了寶貴的技術智慧。

“我們不僅要在雲上提供增值服務，更要推動整個開源生態的發展，”周康強調，“通過深度參與開源社區，確保所有用户都能從技術進步中受益。”

技術意義與未來規劃

EMR Serverless Stella 1.0的發佈標誌着阿里雲在湖倉一體技術領域達到新的里程碑，為用户提供從數倉加速、湖倉查詢到全文檢索的全方位OLAP能力支持。該版本不僅解決了企業在實際生產環境中遇到的關鍵技術挑戰，更通過持續的技術創新和社區貢獻，推動了整個StarRocks生態系統的發展。

未來，Stella將繼續圍繞Lakehouse架構演進，在緩存調度、查詢優化、存儲引擎和寫入能力等核心領域持續創新，為企業數字化轉型提供更加強勁的技術引擎。

阿里雲大數據AI技術博客

阿里雲大數據AI技術博客

博客 / 詳情

EMR Serverless Stella 1.0 技術分享：StarRocks企業級版本內核重大突破

站在巨人肩膀上：與 StarRocks 開源社區的深度合作

Lakehouse 成為業界共識：Stella 應運而生