企業任務調度平台博客

Nov 03 2025

企業任務調度平台 - 【職業發展】從ETL到大數據：如何規劃你的數據職業生涯？

首先： ETL工程師其實是一個特別簡單的崗位。為什麼簡單？ ETL就是數據倉庫項目建設和日常維護中的一種工作，ETL，就是抽取、轉換、裝載的英文縮寫。但是這個現實中都是使用相應工具軟件的。至於怎麼抽取，怎麼轉換、怎麼裝載，都是與具體業務相結合的。比如：每天晚8點抽取，a+b轉換成c，從A設備讀出a和b，計算成c之後存到W設備上。這就是ETL要乾的事。特別簡單。沒有技術含量。但是工作量卻比較大

dolphinscheduler , etl , SQL , kettle , shell

Nov 22 2024

企業任務調度平台 - Kafka集羣管理：🛠️ 如何實現數據均衡與性能最大化

Kafka 概述 Kafka 起初是由 LinkedIn 公司採用 Scala 語言開發的一個多分區、多副本且基於 ZooKeeper 協調的分佈式消息系統，現已被捐獻給 Apache 基金會。目前 Kafka 已經定位為一個分佈式流式處理平台，它以高吞吐、可持久化、可水平擴展、支持流數據處理等多種特性而被廣泛使用，主要是由 Scala 和 Java 編寫。它是一種高吞吐量的分佈式發佈訂閲消

集羣管理系統 , cloudera , 運維自動化 , zookeeper , kafka

Nov 14 2024

企業任務調度平台 - Spark與Hive的完美結合：如何在Spark上部署Hive

主要記錄如何安裝配置 Hive on Spark，在執行以下步驟之前，請先確保已經安裝 Hadoop 集羣，Hive，MySQL，JDK，Scala，具體安裝步驟不再贅述。背景 Hive 默認使用 MapReduce 作為執行引擎，即 Hive on mr。實際上，Hive 還可以使用 Tez 和 Spark 作為其執行引擎，分別為 Hive on Tez 和 Hive on Spark。由於

spark , cloudera , yarn , hive , hadoop

Nov 01 2024

企業任務調度平台 - CDH集羣管理：如何用技術簡化複雜性？

大數據集羣搭建及管理問題:需要搭建1000 台服務器的集羣，其中集羣包含Hive、Hbase、Flume、Kafka、Spark 等集羣，需要多長時間搭建好? 思考: 搭建四台集羣與搭建1000 台集羣的區別?比較相似。解決問題:(以搭建HDFS為例) 集羣環境規劃首先我們需要進行集羣基礎環境的規劃:比如每台節點的網絡 ip 規劃，節點時間同步，每台節點的名稱，每台節點安裝 jdk，節點之間

集羣管理系統 , 大數據處理 , cloudera , hadoop , 集羣

Oct 16 2024

企業任務調度平台 - Cloudera Hue實戰：如何高效利用這款數據查詢工具

Hue 的介紹 HUE 是一個開源的 Apache Hadoop UI 系統，早期由 Cloudera 開發，它是基於 Python Web 框架 Django 實現，後來貢獻給開源社區。它包括 3 個部分 hue ui，hue server， hue db。通過使用 Hue 我們可以通過瀏覽器方式操縱 Hadoop 集羣，查看修改 hdfs 的文件，管理 hive 的元數據，運行 Sqoop，

hue , 集羣管理系統 , 大數據處理 , cloudera , hadoop

Oct 10 2024

企業任務調度平台 - 項目實施｜Kafka集羣升級方案，我們踩過的不少坑

項目背景我們團隊負責維護的 Kafka 集羣承載了公司大部分實時數據的收集與傳輸任務。然而，目前存在一些問題，嚴重影響了集羣的穩定性、用户體驗以及管理員的運維效率：當前集羣版本較低，且低版本的 bug 頻繁出現，導致集羣穩定性受到威脅。例如，violet 集羣最近因觸發 bug 而出現不可用的情況。多個集羣版本不一致，用户在使用時受到版本限制，管理員需要關注不同版本之間的差異，增加了問

集羣管理系統 , 大數據處理 , cloudera , hadoop , kafka

企業任務調度平台博客

博客 / 列表