在今年雲棲大會上,EMR Serverless Stella 1.0正式發佈,這是一款面向企業級場景深度優化的高性能數據分析引擎。阿里雲開源大數據平台OLAP引擎負責人周康系統性地分享了 Stella 在存算分離架構、Lakehouse 場景以及全文檢索等三大核心場景下的深度優化經驗,為業界提供了大規模 OLAP 系統工程化實踐的寶貴參考。Stella引擎的發佈將為企業級用户提供更加專業、高效的OLAP解決方案。
站在巨人肩膀上:與 StarRocks 開源社區的深度合作
阿里雲與StarRocks開源社區的合作可以追溯到2021年,從開源第一天起就建立了深度合作關係。在過去四年中,雙方在源碼共創、產品發佈和技術優化方面積累了豐富的經驗。
合作歷程回顧:
- 2021年:開啓源碼共創,重點推動數據湖分析相關框架和性能優化
- 2022年3月:推出EMR半托管StarRocks形態
- 2023年:響應市場需求,推出全託管產品形態
- 2024年:正式商業化存算分離版本
隨着產品的成熟,阿里雲EMR已積累數百家B端企業客户。“我們始終站在巨人的肩膀上,”阿里雲開源大數據平台OLAP引擎負責人周康表示,“Stella 所有功能和優化都會逐步回饋給社區,同時確保API層面與開源版本完全兼容。”
Lakehouse 成為業界共識:Stella 應運而生
2024年,阿里雲正式發佈 OpenLake 方案,標誌着 Lakehouse 架構在數據基礎設施領域的全面落地:
2024雲棲大會重磅發佈OpenLake解決方案,StarRocks 為 OLAP場景核心組件
伴隨這一趨勢,Lakehouse(數據湖倉一體)已成為國內外頭部公司的業界共識:
海外Lakehouse發展趨勢 Snowflake/Databricks/BigQuery + Iceberg/Delta/Hudi
阿里雲推出了 OpenLake 一體化湖倉解決方案,StarRocks 在其中擔任核心 OLAP 引擎角色。然而,在大規模生產環境中,StarRocks 在存算分離架構和湖表查詢方面仍有優化空間。Stella 項目正是為了應對這些挑戰而生。通過在調度、查詢優化、執行引擎和存儲引擎四個層面的全面改進,Stella 1.0 針對幾十 TB 甚至 PB 級數據場景,解決了事務機制、Compaction 效率、查詢性能、元數據管理等一系列生產環境痛點。
Stella 1.0 三大核心場景突破
EMR Serverless Stella 1.0版本於今年5月正式發佈,主要聚焦三大核心技術能力的重大突破:
一、存算分離:性能和穩定性大幅提升
Stella 1.0 在存算分離架構下實現了三大突破:
1. 冷查性能大幅提升
- 實現 IO 合併,減少對象存儲訪問次數
- 優化 Compaction 調度器,大幅減少小文件數量
- 針對輕量級 ETL 場景優化負載調度
2. 寫入性能保障
- 開發 Batch Publish 能力,解決串行化導入瓶頸
- 推出 Collocated PK Index,避免緩存盤和索引盤互相影響
- 優化 FE 側 Tablet 創建刪除效率
3. 緩存利用率優化
- 引入 Index Cache 和 Meta Data Cache,提升元數據訪問速度
- 實現自適應 IO Stream,智能選擇本地緩存或遠端訪問
- 針對 ETL 場景優化空間利用
在TPC-H 10T基準測試中,存算分離版本的Stella相比上一版本**性能提升超過120%**,充分展現了雲原生架構的技術優勢。
二、Paimon 湖表查詢:Co-design 驅動性能飛躍
Stella 1.0在Paimon表分析方面,重點聚焦在三個方向的提升:
1. 數據讀寫效率提升
- 實現自適應 Batch Size 優化
- 支持Native Paimon Writer,性能大幅提升
2. 元數據訪問優化
- 針對 Manifest 數量眾多場景,實現分佈式解析能力
- 適配異步 Splits 調度框架
- 優化 Manifest Cache 策略
3. 深度集成阿里雲 DLF 2.x
- 與 Data Lake Formation 產品深度整合
- 藉助 DLF 能力提升 Paimon 查詢和寫入的性能與穩定性
- 針對DV表實現Native讀取優化
Stella在Lakehouse場景下查詢Paimon下性能的提升非常明顯:
雖然 Flink + Paimon 已成為成熟的實時入湖方案,但計算引擎與 Paimon 存儲的查詢優化結合仍有巨大提升空間。Stella 與 Paimon 將在多個方便持續進行Co-Design,更多優化成果將在後續版本中發佈。
三、全文檢索:打造高性能、高可用的文本分析能力
Stella 1.0 正式推出全文檢索能力,支持高效、精準的文本查詢。
- 架構重構:對 Inverted Index(倒排索引) 整體解決方案進行架構優化
- 存算分離主鍵表支持:新增主鍵表全文檢索能力,實現高效精準的查詢能力
- 小文件合併:解決存算分離架構下的“性能殺手”問題(單個 Segment 產生十幾個小文件)
文本過濾性能benchmark: Stella vs EMR StarRocks 3.3
目前,全文檢索功能已在阿里集團內部和雲上客户中投入使用,所有優化代碼已通過 PR 提交至 StarRocks 開源社區。
技術創新路線圖持續演進
面向未來,Stella引擎制定了清晰的技術發展路線圖,在四個關鍵領域持續深耕:
- 邁向Stella 2.0時代:輕量 ETL Production Ready
全面強化輕量級 ETL 能力,打通從數據接入、轉換到分析的端到端鏈路,使用户無需依賴外部調度系統即可高效完成日常數據加工任務,真正實現“開箱即用、生產就緒”。 - Lake Optimizer:湖表性能全面對齊甚至超越內表
推出專為開放數據湖設計的 Lake Optimizer,顯著提升 Apache Paimon 等湖表格式的查詢性能,讓湖表在複雜分析場景中媲美甚至超越傳統內表體驗。 - 智能化 Background Job Service:徹底釋放用户運維負擔
針對企業用户長期面臨的內表運維複雜、資源爭搶等問題,Stella 將推出智能化後台作業服務,自動處理 compaction、索引構建、統計信息收集等任務,實現高智能化的自治運維,大幅提升系統穩定性與資源效率。 - 全文檢索與向量檢索能力持續提升
在已有的高性能 OLAP 基礎上,進一步融合全文檢索與向量檢索能力,支持非結構化與多模態數據的統一分析,為 AI 原生應用、智能搜索等新興場景提供底層引擎支撐。
這四大方向不僅體現了 Stella 對 Lakehouse 架構的深度適配,更彰顯了其從“高性能分析引擎”向“智能數據平台核心引擎”演進的戰略決心。隨着這些能力的逐步落地,Stella 將為企業用户提供更開放、更智能、更易用的下一代實時分析體驗。
技術探索與社區協作深度融合
Stella引擎在技術架構探索方面持續深化與開源社區的合作:
Lakehouse架構能力的持續拓展體現了Stella引擎的前瞻性設計理念。在現有Lakehouse架構基礎上,系統將支持更多檢索功能,為企業的多元化分析需求提供全面支持。向量搜索技術是與Apache Paimon深度集成的創新探索,在AI和大數據時代,向量搜索能力將成為差異化的技術優勢。
開源社區貢獻亮點
- JSON等半結構化數據處理能力持續增強,推動整個生態發展
- 大規模場景技術實踐經驗分享,為社區貢獻寶貴技術智慧
- 與Apache Paimon團隊深度技術合作,確保生態整合持續優化
- 所有優化方案回饋開源社區,推動開源生態系統發展進步
開源社區的深度貢獻體現了Stella團隊的技術責任感和開放合作精神。JSON等半結構化數據處理能力的持續增強將推動整個生態的發展,為企業在數字化轉型過程中處理多樣化數據提供更強支持。大規模場景下的技術實踐經驗分享不僅展示技術實力,更為社區貢獻了寶貴的技術智慧。
“我們不僅要在雲上提供增值服務,更要推動整個開源生態的發展,”周康強調,“通過深度參與開源社區,確保所有用户都能從技術進步中受益。”
技術意義與未來規劃
EMR Serverless Stella 1.0的發佈標誌着阿里雲在湖倉一體技術領域達到新的里程碑,為用户提供從數倉加速、湖倉查詢到全文檢索的全方位OLAP能力支持。該版本不僅解決了企業在實際生產環境中遇到的關鍵技術挑戰,更通過持續的技術創新和社區貢獻,推動了整個StarRocks生態系統的發展。
未來,Stella將繼續圍繞Lakehouse架構演進,在緩存調度、查詢優化、存儲引擎和寫入能力等核心領域持續創新,為企業數字化轉型提供更加強勁的技術引擎。