離線開發平台基於開源項目DolphinScheduler建設。
DolphinScheduler 是一個功能強大的分佈式任務調度平台,支持複雜工作流編排、任務監控與告警,適用於離線數據處理場景。
1. 環境準備
- HDFS
- Doris
- seatunnel
1.1 SeatunneI
- 下載地址:https://seatunnel.apache.org/download
- 版本:2.3.8
- 下載完成後上傳到服務器並解壓
2. 數據準備
2.1 hdfs file
- 編輯 json 文件
- 上傳到 HDFS,如下圖預覽
2.2 Doris數據庫表
3. 離線開發平台頁面
- 進入離線開發平台
3.1 配置環境
- 點擊安全中心 - 環境管理
- 編輯 SEATUNNEL_HOME,如果沒有則創建
- 將服務器 JDK 環境和 SEATUNNEL 路徑配置進去
3.2 新建項目配置
- 點擊項目管理 - 創建項目
3.3 進入項目管理
- 點擊項目名稱即可進入項目管理界面
3.4 創建工作流
- 選擇數據集成-seatunneI,拖拽到工作區中
- 配置SeatunneI
- 腳本內容
- 用户根據實際需求修改hdfs配置,schema對應字段,以及Doris配置信息
- 編輯完成後點擊保存
- 配置基本信息點擊確定
3.5 上線工作流
- 我們手動測試,不需要配置定時任務
3.6 啓動工作流
3.7 查看工作流實例
3.8 查看任務示例
- 可以看到此時任務執行完成
3.9 查看Doris數據庫