Stories

Detail Return Return

Apache Doris 與 ClickHouse:運維與開源閉源對比 - Stories Detail

引言

在當今數據驅動的商業環境中,OLAP(在線分析處理)數據庫的選擇對企業的數據分析能力和運維成本有着深遠影響。Apache Doris 和 ClickHouse 作為業界領先的高性能 OLAP 數據庫,各自在不同場景下展現出獨特優勢。

  • Apache Doris 以其優秀的寬表查詢能力、多表 JOIN 性能、實時更新、search 以及湖加速特性而著稱。
  • ClickHouse 同樣在寬表處理方面表現出色,其豐富的分析函數庫和高性能單表聚合能力備受青睞。

然而,從運維角度來看,兩者在存算分離架構、集羣管理自動化、分佈式存儲處理以及故障恢復機制方面存在顯著差異。更為重要的是,兩者在開源策略和商業化模式上的不同選擇,直接影響到企業用户的技術選型決策。

開源與閉源:透明度與演進路徑

Apache Doris 作為 Apache 軟件基金會的頂級項目,遵循 Apache 2.0 協議,其治理權歸屬社區,代碼演進完全開放,關鍵特性如存算分離、實時更新、倒排索引均為開源。用户和廠商可在其基礎上自由構建雲服務或私有化部署,當前已有如 VeloDB 等企業提供基於 Doris 的商用服務,核心功能持續開源。用户既可以選擇自主部署開源版本,也可以使用商業雲服務,選擇權完全掌握在用户手中。

ClickHouse 也採用 Apache 2.0 協議,但並非基金會託管項目,而是由公司 ClickHouse Inc. 主導開發,其商業閉源部分集中在 ClickHouse Cloud。如社區長期期待的 SharedMergeTree(存算分離能力)與輕量更新機制,僅在 ClickHouse Cloud 中可用,引發用户對其“開源未來”走向的擔憂(參考 Altinity 博客)。這種策略意味着用户如果需要使用最新的核心功能,必須選擇商業雲服務,失去了自主部署和完全控制的靈活性。對於有數據安全、成本控制或定製化需求的企業來説,這種限制可能成為重要的選型障礙。

存算分離:靈活性與限制

在支持存算分離方面,Apache Doris 自 3.0 版本起即提供開源能力,用户可將數據存儲在 S3、OSS 等對象存儲中,而計算節點則無狀態運行。通過存算分離(SSD 存熱數據、S3 存冷數據)與 Kubernetes 原生集成,Doris 實現了彈性擴縮、按需啓動、資源隔離等功能,在大數據量場景下可以顯著降低整體成本,部分案例顯示可節省約 70%。這種能力對於構建現代化、雲原生分析平台至關重要。相比之下,ClickHouse 的存算分離功能目前仍然僅限於 ClickHouse Cloud 中閉源實現,開源版本無法本地部署該架構,用户若需使用相關能力只能訂閲商業雲服務,這無疑限制了在私有云或混合雲環境下的可控性與靈活性。

集羣管理:自動化與手動

從集羣管理與運維角度看,Apache Doris 的自動化程度顯著高於 ClickHouse。Doris 在集羣擴容時,能夠自動將數據重新分佈至新加入的節點上,保證數據與計算負載的均衡。以菜鳥網絡為例,其生產環境中 Doris 集羣頻繁的擴縮容應對電商大促活動,無需人工干預,且服務不中斷。而 ClickHouse 的部署過程相對複雜,通常需要配置 ZooKeeper 和 XML 文件。擴容時新節點不會自動承擔查詢負載,需要手動使用工具如 clickhouse-copier 或 clickhouse-backup 遷移副本。根據 Contentsquare(https://engineering.contentsquare.com/2022/scaling-out-clickh...) 的實際經驗,即便是 ClickHouse 的企業用户,也需要通過備份和原地重分片等方式手動進行擴容操作,過程複雜且容易出錯。

在故障恢復方面,Apache Doris 能夠在節點故障時自動屏蔽查詢與寫入請求,並在其他可用節點上重建副本,確保數據的高可用性與服務不中斷。而 ClickHouse 在硬件故障場景下通常需要運維人員手動介入修復副本,容災機制相對薄弱。這種差異在實際運維工作中影響極大,尤其是在夜間或無人值守環境下,自動故障恢復能大幅提升系統穩定性。

資源隔離:內建與外部依賴

Apache Doris 在存算分離架構下可以使用計算組實現導入和查詢的物理隔離,在存算一體架構下可以使用資源組導入和查詢的物理隔離,同時可以使用工作負載隊列對單機內的 CPU、內存、IO 資源進行隔離。不同業務在同一 Doris 集羣中可穩定運行,極大降低了運維複雜度並提升了多租户場景下的性能穩定性。

Compute Group 詳情

Resource Group 詳情

Workload Group 詳情

相比 ClickHouse 主要依賴查詢限額、用户配置和多集羣部署等偏“軟隔離”方式。

關鍵項對比

關鍵項對比

結論

綜合來看,Doris 與 ClickHouse 各有優勢,但在運維效率、集羣自動化能力、故障恢復機制以及開源治理模型方面,Doris 展現出了更成熟、更開放、更面向雲原生架構的產品能力。對於希望構建可控、彈性、高可用分析平台的團隊而言,Doris 提供了一個更具確定性和長期價值的選擇。而 ClickHouse 仍是極具性能優勢的分析引擎,但其閉源方向的轉變可能需要用户在技術與商業之間做出更謹慎的權衡。

最佳實踐

浩瀚深度:從 ClickHouse 到 Doris,支撐單表 13PB、534 萬億行的超大規模數據分析場景

從 ClickHouse 到 Apache Doris:在網易雲音樂日增萬億日誌數據場景下的落地

快手:從 ClickHouse 到 Apache Doris,實現湖倉分離向湖倉一體架構升級

從 ClickHouse 到 Apache Doris,騰訊音樂內容庫數據平台架構演進實踐

user avatar xzqcsj Avatar edonsoft Avatar xinggandemuer_b5u1v2 Avatar sovitjs Avatar gushiio Avatar u_16827017 Avatar histry Avatar lab4ai Avatar huizhudev Avatar zhuifengdekaomianbao Avatar fengdudeyema Avatar lfree Avatar
Favorites 29 users favorite the story!
Favorites

Add a new Comments

Some HTML is okay.