摘要:

本文檔介紹如何在Linux服務器上部署Airflow服務,與openmetadata進行集成,後在openmetadata系統中實現對Airflow工作流數據的拾取以及數據庫元數據的拾取。

• openmetadata:1.6.0

• airflow:2.9.1

 airflow元數據拾取能力演示_開源

元數據管理平台基於開源項目OpenMetaData建設

元數據管理平台OpenMetaData通過全面的元數據採集、強大的存儲與檢索、深度的分析與治理、靈活的應用與共享、高擴展性與定製化以及直觀的用户體驗,為企業提供了一站式的元數據管理解決方案。

  • OpenMetaData開源項目:https://github.com/open-metadata/OpenMetadata
  • 更多教程可以參考官方教程文檔:https://docs.open-metadata.org/latest
1、環境安裝
  • Miniconda:安裝不同版本的python 虛擬環境的工具
  • JDK:17

1.1 Minicoonda

1.1.1 安裝

  • 下載地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
  • 服務器上創建 Miniconda 安裝包存放目錄並切換到該目錄

 airflow元數據拾取能力演示_服務器_02

  • 在本地主機下載好安裝包後上傳至服務器,可通過以下命令上傳

 airflow元數據拾取能力演示_開源_03

  • 在服務器 /opt/software 目錄下執行以下命令開始安裝,按照提示操作,直到安裝完成

 airflow元數據拾取能力演示_服務器_04

  • 在安裝過程中,出現以下提示時,可以自行指定安裝路徑,也可以使用默認路徑

 airflow元數據拾取能力演示_服務器_05

  • 出現以下字樣,即為安裝完成

 airflow元數據拾取能力演示_虛擬環境_06

  • 加載環境配置文件,使剛剛安裝 Miniconda 配置生效

 airflow元數據拾取能力演示_虛擬環境_07

  • Miniconda 安裝完成後,每次打開終端都會激活其默認的 base 環境,我們可通過以下命令,禁止激活默認 base 環境

 airflow元數據拾取能力演示_開源_08

  • 配置 conda 國內鏡像

 airflow元數據拾取能力演示_元數據_09

1.1.2 查看環境

 airflow元數據拾取能力演示_開源_10

1.1.3 創建虛擬環境

 airflow元數據拾取能力演示_元數據_11

1.1.4 刪除虛擬環境

 airflow元數據拾取能力演示_元數據_12

1.1.5 激活虛擬環境

 airflow元數據拾取能力演示_服務器_13

1.1.6 退出虛擬環境

 airflow元數據拾取能力演示_開源_14

1.2 JDK

  • 下載地址:https://www.oracle.com/java/technologies/javase/jdk17-0-13-later-archive-downloads.html
  • 找到以下軟件包進行下載即可

 airflow元數據拾取能力演示_虛擬環境_15

  • 下載完成後,上傳到我們服務器並解壓即可

2、安裝AirfIow

2.1 設置環境變量

 airflow元數據拾取能力演示_服務器_16

  • AIRFLOW_HOME:Airflow 配置文件、日誌等信息存放目錄
  • AIRFLOW__OPENMETADATA_AIRFLOW_APIS__DAG_GENERATED_CONFIGS:openmetadata提取任務配置文件生成目錄

2.2 創建虛擬環境

  • 執行以下命令,按照提示操作

 airflow元數據拾取能力演示_開源_17

  • 激活虛擬環境

 airflow元數據拾取能力演示_開源_18

2.3 安裝

  • 執行以下命令開始安裝

 airflow元數據拾取能力演示_虛擬環境_19

  • 安裝完成後,可執行以下命令,查看安裝的版本

 airflow元數據拾取能力演示_開源_20

  • 查看airflow相關配置信息

 airflow元數據拾取能力演示_元數據_21

2.4 修改配置

 airflow元數據拾取能力演示_開源_22

2.4.1 airflow webserver端口

 airflow元數據拾取能力演示_虛擬環境_23

  • 用户可以修改為其他端口,也可以使用默認配置

2.4.2 executor

 airflow元數據拾取能力演示_元數據_24

  • 執行器,官方建議設置為 LocalExecutor

 airflow元數據拾取能力演示_元數據_25

2.4.3 數據庫

 airflow元數據拾取能力演示_虛擬環境_26

  • 默認使用本機的sqlite存儲,官方建議修改為 mysql 數據庫

 airflow元數據拾取能力演示_服務器_27

 airflow元數據拾取能力演示_元數據_28

2.4.4 auth_backends

 airflow元數據拾取能力演示_開源_29

  • 要讓openmetadata支持airflow元數據拾取需要修改該配置為

 airflow元數據拾取能力演示_服務器_30

2.5 初始化數據庫

  • 執行以下命令進行數據庫初始化

 airflow元數據拾取能力演示_元數據_31

  • 修改系統登錄密碼,這裏我們修改密碼為 alldata

 airflow元數據拾取能力演示_開源_32

2.6 安裝插件

  • 安裝此插件,即可支持openmetadata集成airflow元數據拾取

 airflow元數據拾取能力演示_服務器_33

2.7 啓動airflow

 airflow元數據拾取能力演示_虛擬環境_34

  • 啓動完成後,執行以下命令驗證插件是否安裝成功

 airflow元數據拾取能力演示_開源_35

  • 32g004是我們的服務器域名
  • 8100是我們的airflow webserver端口地址
  • 出現如下信息表示安裝成功

 airflow元數據拾取能力演示_開源_36


3、airflow元數據拾取

3.1 進入openmetadata頁面

 airflow元數據拾取能力演示_虛擬環境_37

3.2 點擊服務

點擊後,進入以下頁面

 airflow元數據拾取能力演示_服務器_38

3.3 點擊工作流

點擊後,進入以下頁面

 airflow元數據拾取能力演示_開源_39

3.4 點擊添加新服務

  • 點擊後,進入以下頁面
  • 選擇 Airflow

 airflow元數據拾取能力演示_虛擬環境_40

3.5 點擊下一步

  • 點擊後,進入以下頁面
  • 編輯服務名(必填)
  • 以及描述(可選)

 airflow元數據拾取能力演示_元數據_41

3.6 點擊下一步

  • 點擊後,進入以下頁面

 airflow元數據拾取能力演示_虛擬環境_42

  • Host And Port:Airflow的服務地址,輸入以下內容

 airflow元數據拾取能力演示_開源_43

  • Metadata Database Connection 修改為 BackendConnection,如下圖

 airflow元數據拾取能力演示_服務器_44

  • 點擊測試連接,成功後如下圖

 airflow元數據拾取能力演示_開源_45

  • 點擊 Save,服務創建成功

 airflow元數據拾取能力演示_服務器_46

3.7 點擊添加拾取

  • 點擊後,進入以下頁面
  • 以下配置默認即可

 airflow元數據拾取能力演示_元數據_47

 airflow元數據拾取能力演示_開源_48

3.8 點擊下一步

  • 點擊後,進入以下頁面
  • 這裏我們選第一個選項無,拾取任務我們手動點擊運行

 airflow元數據拾取能力演示_虛擬環境_49

3.9 點擊添加部署

  • 點擊後,進入以下頁面

 airflow元數據拾取能力演示_服務器_50

3.10 點擊查看服務

  • 點擊後,進入以下頁面
  • 此時,已完成一次工作流拾取任務,可以看到工作流信息

 airflow元數據拾取能力演示_開源_51

3.11 點擊提取

  • 點擊後,進入以下頁面
  • 可以看到我們的拾取任務的狀態以及執行日誌

 airflow元數據拾取能力演示_元數據_52

3.12 登錄Airflow

 airflow元數據拾取能力演示_服務器_53

4、mysql元數據拾取

4.1 進入openmetadata頁面

 airflow元數據拾取能力演示_開源_54

4.2 點擊服務

點擊後,進入以下頁面

 airflow元數據拾取能力演示_服務器_55

4.3 點擊數據庫

點擊後,進入以下頁面

 airflow元數據拾取能力演示_開源_56

4.4 點擊添加新服務

  • 點擊後,進入以下頁面
  • 選擇 mysql

 airflow元數據拾取能力演示_元數據_57

4.5 點擊下一步

  • 點擊後,進入以下頁面
  • 編輯服務名(必填)
  • 以及描述(可選)

 airflow元數據拾取能力演示_開源_58

4.6 點擊下一步

  • 點擊後,進入以下頁面
  • 編輯數據庫連接信息

 airflow元數據拾取能力演示_服務器_59

  • 點擊 "測試連接"

 airflow元數據拾取能力演示_服務器_60

  • 點擊 "Save"

 airflow元數據拾取能力演示_開源_61

4.7 點擊添加提取

  • 點擊後,進入以下頁面

 airflow元數據拾取能力演示_服務器_62

  • 頁面可下滑設置參數,默認即可

4.8 點擊下一步

  • 點擊後,進入以下頁面
  • 這裏我們選第一個選項"無",拾取任務我們手動點擊運行

 airflow元數據拾取能力演示_服務器_63

4.9 點擊添加部署

  • 點擊後,進入以下頁面

 airflow元數據拾取能力演示_開源_64