2025 年雲棲大會,EMR Serverless StarRocks重磅發佈全新企業級版本內核Stella (StarRocks Efficient and Lightening-fast Lakehouse),完全兼容開源StarRocks,為用户提供企業級的產品功能、卓越的性能及穩定性保障。
EMR Serverless StarRocks在權威TPC基準測試中創造佳績:在“數據分析”性能測試TPC-H榜單中,阿里雲EMR Serverless StarRocks (Stella 1.2.0內核)以QphH超754萬分的性能結果斬獲全球冠軍,領先第二名111%;
全新企業級內核Stella在TPC-H 10TB標準測試場景下,相比上一版本性能提升超過120%,登頂TPC榜單全球第一;與此同時,在Lakehouse典型場景中,StarRocks + Paimon組合的TPC-H 1T的性能測試,相比上一個版本性能提升100%,相比Trino + Paimon實測性能提升高達12倍,Paimon DV表的模式下提升300%。充分驗證了其在複雜分析查詢中的極致性能與雲原生架構的領先優勢。同時發佈了全新的全文檢索引擎,較之前版本過濾性能提升100%。
三大核心場景全面升級
Stella 聚焦雲原生Lakehouse能力提升,在實時數倉、湖倉分析、全文檢索三大核心場景上取得重大突破:
1、實時數倉
- 多Warehouse(多計算組)正式發佈:支持讀寫分離場景,已經過大規模生產環境驗證
- 內核性能大幅提升:性能較上個版本提升100%
- 使用成本大大降低:高頻導入降低50%資源消耗,存儲API請求成本降低80%
- 元數據管理效率提升:海量Tablet調度性能提升300%
- 企業級能力:完整支持數據治理和血緣功能
- 存儲與可觀測性提升:磁盤空間和穩定性全面對齊存算一體架構,可觀測性大幅提升
2、湖倉分析
- Paimon查詢性能提升100%:在標準TPC-H場景下,查詢性能較上一版本顯著提升
- Paimon DV表分析性能提升300%+:通過對DV序列化機制的大幅優化,DV表模型查詢效率提升約10倍
- 跨引擎性能領先:StarRocks+Paimon相較Trino+Paimon性能提升12倍以上
- 無縫集成雲上DLF 2.×系列:與阿里雲Data Lake Formation深度集成,支持用户、權限、元數據統一管理,雲上即開即用的Lakehouse架構
3、全文檢索
- 全新倒排索引架構和能力正式發佈:重構社區版本,改進設計缺陷
- 導入性能提升3倍+:檢索引擎數據導入效率大幅提高
- 日誌分析性能提升5倍+:查詢響應速度顯著提升
- 存儲降本80%+:StarRocks採用的列存模式較行存模式大大提升壓縮空間能力
核心能力優化
Multi-Warehouse:企業級資源隔離方案
Multi-Warehouse針對大型StarRocks集羣的資源隔離難題提供了有效解決方案。隨着集羣規模擴大和業務場景增多,資源爭搶問題逐漸凸顯——導入任務過大影響查詢性能、大型SQL操作阻塞其他業務查詢。
Multi-Warehouse基於存算分離架構,實現了:
- 數據共享與計算隔離:多個Warehouse共享同一存儲層(如OSS),實現數據高效共用;計算資源通過硬隔離機制獨立分配
- 全面資源隔離:最新版本支持Compaction指定運行在特定Warehouse中,避免資源集中爭搶
- 彈性伸縮協同:與彈性伸縮能力結合使用,可根據業務需求動態調整計算資源規模,白天高峯擴容、夜間低峯縮容,在保障性能的同時有效控制成本
目前,在使用存算分離架構的客户中,約半數已啓用Multi-Warehouse,該功能與彈性伸縮已成為企業用户廣泛組合使用的兩大核心功能。
Stella 內核性能提升
在TPC-H 10T基準測試中,存算分離版本的Stella相比上一版本性能提升超過120%,充分展現了雲原生架構的技術優勢。
重點優化:
- 支持Index & Meta Cache 功能優先級,優先保障元數據緩存命中率,大大提升查詢性能
- 緩存自適應IO框架,更好的均衡磁盤和OSS效率,提高緩存命中率
- 高頻導入場景,優化調度算法,保障不傾斜,提升導入效率
- 海量Tablet調度情況下,優化shared balance算法,在50+節點彈性伸縮場景下,達到秒級均衡
- 輕量ETL場景下優化緩存空間管理框架
湖倉分析場景優化
Stella在Lakehouse場景下查詢Paimon下性能的提升也非常明顯:
重點優化
- 大規模元數據場景下,實現分佈式元數據解析框架,避免單點,提升查詢性能。
- 優化元數據獲取性能,支持manifest cache,提升查詢性能及MV刷新效率。
- 重構Delete Vector序列化框架,大幅度提升DV查詢性能。
- DLF 2.5 深度集成,與Openlake方案無縫銜接。
通過與Data Lake Formation的深度集成,用户只需簡單創建catalog即可訪問DLF中的數據表,權限配置在DLF中即可自動同步至StarRocks,實現真正的即開即用。
全文檢索發佈
全新全文檢索功能現已在存算一體與分離架構中全面支持,基於 全文倒排索引實現高效文本搜索。適用於日誌分析、商品標題匹配等場景。相比舊版,查詢性能提升 3-5 倍,導入更快,存儲成本顯著降低。全文檢索功能支持主鍵表和明細表,用户可在建表時或建表後創建索引,使用match、match\_all等語法實現多樣化的文本檢索需求。
全文倒排索引使用方法
建表時創建索引:
CREATE TABLE `t` (
`k` BIGINT NOT NULL COMMENT "",
`v` STRING COMMENT "",
INDEX idx (v) USING GIN("parser" = "english")
) ENGINE=OLAP
DUPLICATE KEY(`k`)
DISTRIBUTED BY HASH(`k`) BUCKETS 1
PROPERTIES (
"replicated_storage" = "false"
);
建表後創建索引:
-- Create Index After Create Table
ALTER TABLE t ADD INDEX idx (v) USING GIN( 'parser' = 'english');
全文檢索查詢:
-- MATCH/MATCH_ANY
select * from testdb.http_logs
where request match "images hm_bg";
-- MATCH_ALL
select * from testdb.http_logs
where request match_all "images hm_bg";
-- MATCH_PHRASE
select * from testdb.http_logs
where request match_phrase "GET /images";
-- MATCH_PHRASE_PREFIX
select * from testdb.http_logs
where request match_phrase_prefix "GET /im";
-- MATCH_PHRASE_EDGE
select * from testdb.http_logs
where request match_phrase_edge 'et images hm';
Stella 的發佈標誌着 EMR Serverless StarRocks 在企業級數據分析領域邁入新的里程碑。從實時數倉到湖倉分析,從全文檢索到多業務隔離,Stella 為每一個場景都帶來了實實在在的性能提升和成本優化。
依託於在 TPC-H 10T 基準測試中超過 120% 的性能飛躍,以及在開放湖倉場景下提升高達 12 倍的實測查詢優勢,Stella 不僅驗證了其技術架構的先進性,更彰顯了阿里雲在雲原生數據處理領域的深厚積累與持續創新能力。這些成績背後,是存算分離架構、分佈式元數據管理、智能緩存調度、Delete Vector 優化等核心技術的全面突破,使得 Stella 能夠從容應對超大規模數據下的複雜分析挑戰。
面向未來,Stella 將繼續深化在 Lakehouse 架構、實時化、智能化方向的探索,為企業構建統一、高效、低成本的數據分析底座提供更強有力的支撐。無論是金融、電商、互聯網還是製造業客户,都將藉助Stella 實現更快速的決策響應、更靈活的資源調度與更可觀的總體擁有成本(TCO)優化。EMR Serverless StarRocks 正以開源兼容為基石,以企業級能力為核心,引領雲原生數據分析的新時代。