Data engineering at Meta
作為全球數據驅動型企業的典範,Meta 的大規模數據工程實踐為行業樹立了標杆。本文深度解析其數據基礎設施,涵蓋從 Exabyte 級數據倉庫(Hive/ORC 存儲、名稱空間分區)到混合計算引擎(Presto/Spark 離線分析 + Scuba 實時查詢),再到 Daiquery/Bento 開發工具與 Unidash 可視化平台。揭秘 Meta 如何通過 UPM 流水線管理、分析庫集成及自動化
作為全球數據驅動型企業的典範,Meta 的大規模數據工程實踐為行業樹立了標杆。本文深度解析其數據基礎設施,涵蓋從 Exabyte 級數據倉庫(Hive/ORC 存儲、名稱空間分區)到混合計算引擎(Presto/Spark 離線分析 + Scuba 實時查詢),再到 Daiquery/Bento 開發工具與 Unidash 可視化平台。揭秘 Meta 如何通過 UPM 流水線管理、分析庫集成及自動化
在雲環境中,高效的日誌收集與處理是系統監控和運維的關鍵。本文圍繞《雲環境中的日誌收集和處理方案》展開,先介紹日誌收集的兩種方式,再聚焦處理環節,探討寫入 kafka、共享存儲、S3 等路徑,分析使用 raft 組日誌集羣及 NewSQL 的方案,最後結合 Spark 端調度進行總結,為雲日誌管理提供多維度技術參考。 日誌收集-兩種方式 這裏是將pod中的日誌收集,放到一個指定的地方 首先是將
導讀:本期是《深入淺出Apache Spark》系列分享的第四期分享,第一期分享了Spark core的概念、原理和架構,第二期分享了Spark SQL的概念和原理,第三期則為Spark SQL解析層的原理和優化案例。本次分享內容主要是Spark SQL分析層的原理和優化的案例,且此優化案例是對於理解分析層原理很重要的。 本期介紹會圍繞下面五點展開: 前情提要 Spark SQL