动态

详情 返回 返回

告別 Hadoop,擁抱 StarRocks!政採雲數據平台升級之路 - 动态 详情

作者:李進勇 政採雲研發中心數據平台負責人

導讀:

在當下數字化轉型的浪潮中,數據早已從輔助資源躍升為核心生產資料和決策基礎。政府提升治理效能,企業優化運營、創新服務,都深度依賴對海量數據的實時洞察與高效處理。

政採雲平台作為政府採購數字化的創新典範,集監管、交易、服務於一體,經過近九年的發展,已成為行業內服務範圍最廣、用户數量最多、交易最活躍、監管產品最豐富的跨區域、跨層級、跨領域的一體化採購雲服務平台,日均處理海量高併發數據。Hadoop 作為早期構建大規模數據平台的基石,為政採雲平台打開了低成本處理海量非結構化、半結構化數據的可能。然而,伴隨業務激增、複雜分析需求及嚴苛的時效要求,曾經“功臣”的侷限性和沉重包袱日益凸顯,逐漸成為數據價值釋放的“枷鎖”。

數據驅動時代的痛

架構複雜臃腫,運維如履薄冰

使用 Hadoop 平台需要部署和管理多個深度依賴的組件(HDFS、YARN、Hive、Spark 等),這些組件各自獨立,版本兼容性管理複雜,配置調優相互影響,精密且牽一髮而動全身,問題排查就像走迷宮,定位根因異常困難,給團隊帶來了沉重負擔。

高昂的總體擁有成本(TCO)

為了支撐架構穩定運行,硬件需要配置較多冗餘資源,平台運維工程師深陷於組件部署、升級、配置、監控、故障處理等繁瑣事務中。政採雲數據平台的私有化部署場景,更使得交付和維護成本倍增。

難以逾越的實時性鴻溝

Hadoop 根基在於批處理,即使經 Spark 優化,面對秒級甚至亞秒級響應的分析場景時,Hadoop 仍顯得力不從心,難以滿足業務部門日益提高的實時數據要求。

強耦合依賴帶來彈性不足與升級困境

組件間緊密耦合導致擴縮容成本高昂,新節點添加需冗長的數據重分佈過程,縮容涉及複雜的數據遷移,嚴重限制了技術棧的靈活選擇與獨立升級。

國產化適配挑戰

當前,信創是國家的重要戰略方向。在政採雲面向政企客户的場景中,信創要求在不斷的提高,Hadoop 面臨雙重困境:一方面,CDH 停止開源支持存在供應風險。

另一方面,現有開源版本的組件對國產硬件和操作系統的兼容性和性能優化嚴重不足。

在私有化部署場景下,這直接導致項目落地風險陡增,甚至導致解決方案無法實施。

破局時刻:尋求現代化的數據平台

面對這些多維度挑戰,政採雲數據團隊認識到:對 Hadoop 平台的局部優化已無法解決根本問題,必須尋求架構層面的徹底革新,重新定義數據平台戰略。

政採雲數據平台團隊的核心需求非常明確:

  • 技術路線可控:確保技術適配國產硬件和操作系統。
  • 高性能與實時性: 能夠從容應對海量數據進行分析與查詢需求。
  • 架構極簡,運維輕量: 大幅降低運維複雜度,解放運維生產力。
  • 顯著優化成本: 降低軟硬件採購和維護開銷,提高資源利用率。
  • 彈性伸縮靈活: 資源能夠按需、快速、平滑地擴展和收縮。

通過廣泛調研,StarRocks 憑藉其獨特的架構設計理念和卓越性能引起了政採雲數據團隊的高度關注。經過一系列嚴謹測試、場景驗證,政採雲做出了關鍵決策:以 StarRocks 為核心引擎,結合其原生存算分離架構,對政採雲數據平台架構進行全面的重構升級!

StarRocks 的革新架構:簡約、高效、解耦

StarRocks 追求“極致性能”與“極簡架構”,其核心優勢在於徹底摒棄了 Hadoop 的堆疊模式,實現了真正的“去 Hadoop 化”和“一體化 MPP”架構。鏡舟科技作為其商業化公司也提供全面的技術支持,確保其在國產硬件與操作系統上的深度適配與優化。

架構極簡:顛覆性的組件精簡

核心組件僅兩個:Frontend (FE) 和 Compute Node (CN)

  • FE(協調節點): 負責元數據管理、查詢規劃優化、客户端請求接入和集羣管理。FE 的多副本機制通過高一致性協議(Raft)保障元數據的絕對安全和服務的持續可用。
  • CN(數據節點/計算節點): 主要負責計算,不存儲持久化數據,為存算分離提供基礎。

政採雲移除了 HDFS、YARN、Hive 及部分計算引擎,將數據存儲、元數據管理、SQL 計算、複雜查詢優化統一收斂到 StarRocks 內。

部署管理清晰簡單:管理好一組 FE,按需增加或減少 CN 節點,相比 Hadoop 時期,整個集羣啓動和運維複雜度呈指數級下降。

高度一體化:數據全棧能力的集中釋放

統一引擎:StarRocks 集 MPP 向量化執行引擎、CBO 優化器、列式存儲、智能物化視圖等技術於一身,用户不需要為不同場景準備不同引擎。

全場景覆蓋:它不僅支持即席查詢和交互式分析,得益於優秀的 Pipeline 處理和對部分更新、主鍵模型的支持,還具備強大的高併發實時分析。

原生湖分析:通過簡單的 Catalog 配置,StarRocks 可以直接分析存放在外部對象存儲或原 HDFS 上的湖上數據,無需遷移導入,極大簡化了混合架構下的分析流程。

統一接口:所有核心場景(ETL/批處理、實時分析、多維分析、交互式查詢)均只需使用一套標準 SQL 接口,打破了不同引擎間的壁壘,極大簡化了數據應用開發和數據鏈路的複雜性。

擁抱存算分離:成本效益與彈性

統一存儲層(對象存儲)

政採雲將需要長期穩定存儲的核心數據,統一放置在高可靠、低成本的對象存儲上,對象存儲本身提供高可靠、無限擴展、按量付費的特性。

高效計算層(StarRocks)

FE 節點統一管理元數據,CN 節點利用本地介質作為熱數據緩存層(Cache)並承擔計算任務。

基於以上架構組合,進一步實現彈性伸縮:

  • 存算解耦:數據增長只需擴展存儲空間。計算資源不足時,幾分鐘內添加節點自動納入資源池;資源過剩可安全移除節點或降配,無需耗時的數據重分佈。
  • 成本精益控制:計算資源按需分配。在業務高峯快速擴展計算資源應對壓力;在低谷期收縮資源降低成本,避免長期閒置資源。
  • 分層存儲:“冷數據”自動沉降到成本更低的對象存儲,僅保留少量熱點數據在高速緩存層。避免了過去 HDFS 在存儲成本上的硬傷。

高效故障恢復

如遇 CN 節點宕機,計算任務會自動調度到其他節點,新增的 CN 節點自動重建本地緩存,FE 故障則自動由 Raft 副本接管,顯著增強了系統韌性。

攻堅克難:遷移挑戰與創新突破

經過周密的技術驗證與遷移規劃,政採雲數據平台從 Hadoop 遷移至 StarRocks 的過程中,主要面臨以下挑戰:

內部大數據應用的適配

包括作業開發平台、數據標籤系統、數據指標系統、數據質量系統、數據地圖、數據權限系統、數據血緣,以及底層自研組件 HTools 和調度系統等。

SQL 遷移與數據一致性驗證

數倉作業需要從 Spark SQL 轉換至 StarRocks SQL,並且需確保 Hadoop 數倉和 StarRocks 數倉的計算結果一致。

業務系統適配改造主要面臨工作量層面的挑戰,相對可控;而 SQL 血緣收集、數倉作業遷移和數據核對等環節則涉及技術可行性問題,難度顯著提升,但團隊仍逐一解決。

SQL 血緣收集:相較於 Hadoop 數倉,StarRocks 缺乏表和字段的血緣關係解決方案。由於數據血緣在數倉開發過程中是必不可少的,政採雲選擇對 StarRocks 進行二開,在 SQL 生成語法樹之後的 Analyze 階段解析出血緣信息,並寫入 StarRocks 內部表。

數倉作業遷移:由於 Spark SQL 與 StarRocks SQL 之間存在一些語法差異,人工逐一遷移和改造不切實際。因此,團隊開發了一種自動轉換語法的遷移功能,約 90%的差異可通過自動轉換來處理,其餘個性化差異則通過人工進行判斷和改造。這種方式大幅縮短遷移時間,還節省大量的人力資源。

數據核對:確保遷移前後批處理結果一致是重大挑戰。面對數千張倉庫表,StarRocks 可能在不報錯的情況下處理某些細微語法差異,導致部分列數據不一致。政採雲開發了專門的數據核對工具,通過行數比對、關鍵枚舉值驗證和數據抽樣 MD5 值等多維度規則,全面保障數據遷移的準確性。

成果豐碩:收穫多維數據價值

經過諸多挑戰,成功遷移至 StarRocks 數倉後,帶來的收益是多維度且顯著的:

可靠性、穩定性邁上全新台階

服務自愈能力強: StarRocks 的進程健康檢查和自動恢復機制顯著減少了人工介入的頻率,服務異常能夠被系統更快感知並嘗試自恢復。

存儲無虞: 核心數據存儲在對象存儲中,對象存儲自身的高可靠性使得政採雲對數據安全性有了更強的底氣。

效率提升:在總體成本大幅下降的同時,絕大多數數據處理任務的產出時效性反而獲得明顯提升。

運維複雜性斷崖式下降

運維對象聚焦:監控指標集中、告警收斂。告別監控 HDFS、YARN、Spark、Hive 等多個割裂狀態,轉為集中管理少量 frontend 進程和眾多 backend/compute node 進程。

變更敏捷高效:集羣擴縮容從"災難演練"變為幾分鐘內完成的日常操作,水平擴展後立即可服務業務,版本升級路徑清晰可控。

團隊價值迴歸:數據平台團隊從繁瑣的“救火”和基礎設施維護中解放,轉向平台優化、性能調優和業務賦能等更具戰略價值的工作。

成本效益顯著優化

  • 存儲成本鋭減:通過冷數據沉降至對象存儲和靈活的分層管理,政採雲平台的數據存儲總成本較 HDFS 方案下降了超過 85%,充分發揮對象存儲的海量低成本優勢。

計算成本降低:存算分離架構實現計算資源按需動態伸縮,消除峯值預留造成的資源閒置,同時 StarRocks 在同等硬件條件下展現出更高的計算效率(吞吐量、QPS)。告別存儲與計算緊耦合模式(如 HDFS 要求節點同時承擔存儲和計算功能),消除了不必要的資源開銷。

總體 TCO 下降:綜合人力運維、軟硬件資源採購與維護等方面的節約,政採雲整體 IT 相關成本降低超過 30%。

數據處理鏈路煥然一新:

統一 SQL 入口: ETL 清洗、數據導入調度、批處理報表生成、實時數據大盤查看、深度即席探索分析——所有操作在 BI 工具或客户端中通過標準 SQL 即可一站式完成,告別多平台跳轉困擾。

告別“數據搬運工”:大幅減少跨存儲系統(HDFS 到其他 DB)和不同格式間的數據流轉與轉換環節,提升數據時效性,增強鏈路一致性,簡化數據治理落地。

價值釋放加速:簡化流程、一體化體驗與強大處理能力協同作用,顯著縮短從數據產生到分析利用的週期,數據驅動決策效率實現質的飛躍。

擁抱未來

政採雲平台從傳統 Hadoop 向現代雲原生數據倉庫 StarRocks 的成功轉型,是技術驅動業務價值提升的一次生動實踐。

StarRocks 作為新一代分析型數據庫,在支撐實時、高併發、低延遲的交互式分析場景中具有顯著優勢,雲原生架構(存算分離模式)也為企業在成本優化、彈性伸縮方面開闢了全新路徑。

另外,其開源友好的模式、活躍的社區,結合鏡舟科技等國內廠商提供的商業支持和技術保障,以及在國產操作系統上的深度適配和優化,使其成為政企數字化轉型中可信賴的技術選擇。

展望未來,數據處理技術的發展趨勢清晰可見:極簡架構、極致性能、安全可控、雲原生彈性、實時智能已成為主流方向。政採雲平台將持續深化對 StarRocks 的應用,例如:

  • 深入挖掘實時數據價值:進一步完善實時數據處理鏈路,支撐更復雜的實時決策場景。
  • 智能化探索:嘗試結合查詢加速技術如智能物化視圖自動創建與選擇等,進一步提升用户體驗。
  • 深度融合數據湖架構:探索更高效統一的湖倉分析模式。
  • 資源彈性伸縮:更優的成本管控。

政採雲數據平台團隊將繼續依託 StarRocks 這一堅實可靠又充滿活力的引擎,深挖數據潛能,致力於打造一個更敏捷、更穩定、更高效、更經濟的數據平台,為政企採購數字化領域的不斷創新發展注入源源不斷的“數據動力“。

user avatar mulavar 头像 zyx178 头像 laoqing 头像 kerrycode 头像 lfree 头像 ruanjiankaifa_xiaofanya 头像 wric 头像 lanlan_guo 头像 daimajiangxin 头像 qiyuxuanangdechuangkoutie 头像
点赞 10 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.