首先: ETL工程師其實是一個特別簡單的崗位。 為什麼簡單? ETL就是數據倉庫項目建設和日常維護中的一種工作,ETL,就是抽取、轉換、裝載的英文縮寫。但是這個現實中都是使用相應工具軟件的。至於怎麼抽取,怎麼轉換、怎麼裝載,都是與具體業務相結合的。 比如: 每天晚8點抽取,a+b轉換成c,從A設備讀出a和b,計算成c之後存到W設備上。這就是ETL要乾的事。特別簡單。沒有技術含量。但是工作量卻比較大
Kafka 概述 Kafka 起初是 由 LinkedIn 公司採用 Scala 語言開發的一個多分區、多副本且基於 ZooKeeper 協調的分佈式消息系統,現已被捐獻給 Apache 基金會。 目前 Kafka 已經定位為一個分佈式流式處理平台,它以高吞吐、可持久化、可水平擴展、支持流數據處理等多種特性而被廣泛使用,主要是由 Scala 和 Java 編寫。 它是一種高吞吐量的分佈式發佈訂閲消
主要記錄如何安裝配置 Hive on Spark,在執行以下步驟之前,請先確保已經安裝 Hadoop 集羣,Hive,MySQL,JDK,Scala,具體安裝步驟不再贅述。 背景 Hive 默認使用 MapReduce 作為執行引擎,即 Hive on mr。實際上,Hive 還可以使用 Tez 和 Spark 作為其執行引擎,分別為 Hive on Tez 和 Hive on Spark。由於
大數據集羣搭建及管理 問題:需要搭建1000 台服務器的集羣,其中集羣包含Hive、Hbase、Flume、Kafka、Spark 等集羣,需要多長時間搭建好? 思考: 搭建四台集羣與搭建1000 台集羣的區別?比較相似。 解決問題:(以搭建HDFS為例) 集羣環境規劃 首先我們需要進行集羣基礎環境的規劃:比如每台節點的網絡 ip 規劃,節點時間同步,每台節點的名稱,每台節點安裝 jdk,節點之間
Hue 的介紹 HUE 是一個開源的 Apache Hadoop UI 系統,早期由 Cloudera 開發,它是基於 Python Web 框架 Django 實現,後來貢獻給開源社區。它包括 3 個部分 hue ui,hue server, hue db。通過使用 Hue 我們可以通過瀏覽器方式操縱 Hadoop 集羣,查看修改 hdfs 的 文件,管理 hive 的元數據,運行 Sqoop,
項目背景 我們團隊負責維護的 Kafka 集羣承載了公司大部分實時數據的收集與傳輸任務。然而,目前存在一些問題,嚴重影響了集羣的穩定性、用户體驗以及管理員的運維效率: 當前集羣版本較低,且低版本的 bug 頻繁出現,導致集羣穩定性受到威脅。例如,violet 集羣最近因觸發 bug 而出現不可用的情況。 多個集羣版本不一致,用户在使用時受到版本限制,管理員需要關注不同版本之間的差異,增加了問