摘要:
本文檔介紹如何在Linux服務器上部署Airflow服務,與openmetadata進行集成,後在openmetadata系統中實現對Airflow工作流數據的拾取以及數據庫元數據的拾取。
• openmetadata:1.6.0
• airflow:2.9.1
元數據管理平台基於開源項目OpenMetaData建設
元數據管理平台OpenMetaData通過全面的元數據採集、強大的存儲與檢索、深度的分析與治理、靈活的應用與共享、高擴展性與定製化以及直觀的用户體驗,為企業提供了一站式的元數據管理解決方案。
- OpenMetaData開源項目:https://github.com/open-metadata/OpenMetadata
- 更多教程可以參考官方教程文檔:https://docs.open-metadata.org/latest
1、環境安裝
- Miniconda:安裝不同版本的python 虛擬環境的工具
- JDK:17
1.1 Minicoonda
1.1.1 安裝
- 下載地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
- 服務器上創建 Miniconda 安裝包存放目錄並切換到該目錄
- 在本地主機下載好安裝包後上傳至服務器,可通過以下命令上傳
- 在服務器 /opt/software 目錄下執行以下命令開始安裝,按照提示操作,直到安裝完成
- 在安裝過程中,出現以下提示時,可以自行指定安裝路徑,也可以使用默認路徑
- 出現以下字樣,即為安裝完成
- 加載環境配置文件,使剛剛安裝 Miniconda 配置生效
- Miniconda 安裝完成後,每次打開終端都會激活其默認的 base 環境,我們可通過以下命令,禁止激活默認 base 環境
- 配置 conda 國內鏡像
1.1.2 查看環境
1.1.3 創建虛擬環境
1.1.4 刪除虛擬環境
1.1.5 激活虛擬環境
1.1.6 退出虛擬環境
1.2 JDK
- 下載地址:https://www.oracle.com/java/technologies/javase/jdk17-0-13-later-archive-downloads.html
- 找到以下軟件包進行下載即可
- 下載完成後,上傳到我們服務器並解壓即可
2、安裝AirfIow
2.1 設置環境變量
- AIRFLOW_HOME:Airflow 配置文件、日誌等信息存放目錄
- AIRFLOW__OPENMETADATA_AIRFLOW_APIS__DAG_GENERATED_CONFIGS:openmetadata提取任務配置文件生成目錄
2.2 創建虛擬環境
- 執行以下命令,按照提示操作
- 激活虛擬環境
2.3 安裝
- 執行以下命令開始安裝
- 安裝完成後,可執行以下命令,查看安裝的版本
- 查看airflow相關配置信息
2.4 修改配置
2.4.1 airflow webserver端口
- 用户可以修改為其他端口,也可以使用默認配置
2.4.2 executor
- 執行器,官方建議設置為 LocalExecutor
2.4.3 數據庫
- 默認使用本機的sqlite存儲,官方建議修改為 mysql 數據庫
2.4.4 auth_backends
- 要讓openmetadata支持airflow元數據拾取需要修改該配置為
2.5 初始化數據庫
- 執行以下命令進行數據庫初始化
- 修改系統登錄密碼,這裏我們修改密碼為 alldata
2.6 安裝插件
- 安裝此插件,即可支持openmetadata集成airflow元數據拾取
2.7 啓動airflow
- 啓動完成後,執行以下命令驗證插件是否安裝成功
- 32g004是我們的服務器域名
- 8100是我們的airflow webserver端口地址
- 出現如下信息表示安裝成功
3、airflow元數據拾取
3.1 進入openmetadata頁面
3.2 點擊服務
點擊後,進入以下頁面
3.3 點擊工作流
點擊後,進入以下頁面
3.4 點擊添加新服務
- 點擊後,進入以下頁面
- 選擇 Airflow
3.5 點擊下一步
- 點擊後,進入以下頁面
- 編輯服務名(必填)
- 以及描述(可選)
3.6 點擊下一步
- 點擊後,進入以下頁面
- Host And Port:Airflow的服務地址,輸入以下內容
- Metadata Database Connection 修改為 BackendConnection,如下圖
- 點擊測試連接,成功後如下圖
- 點擊 Save,服務創建成功
3.7 點擊添加拾取
- 點擊後,進入以下頁面
- 以下配置默認即可
3.8 點擊下一步
- 點擊後,進入以下頁面
- 這裏我們選第一個選項無,拾取任務我們手動點擊運行
3.9 點擊添加部署
- 點擊後,進入以下頁面
3.10 點擊查看服務
- 點擊後,進入以下頁面
- 此時,已完成一次工作流拾取任務,可以看到工作流信息
3.11 點擊提取
- 點擊後,進入以下頁面
- 可以看到我們的拾取任務的狀態以及執行日誌
3.12 登錄Airflow
4、mysql元數據拾取
4.1 進入openmetadata頁面
4.2 點擊服務
點擊後,進入以下頁面
4.3 點擊數據庫
點擊後,進入以下頁面
4.4 點擊添加新服務
- 點擊後,進入以下頁面
- 選擇 mysql
4.5 點擊下一步
- 點擊後,進入以下頁面
- 編輯服務名(必填)
- 以及描述(可選)
4.6 點擊下一步
- 點擊後,進入以下頁面
- 編輯數據庫連接信息
- 點擊 "測試連接"
- 點擊 "Save"
4.7 點擊添加提取
- 點擊後,進入以下頁面
- 頁面可下滑設置參數,默認即可
4.8 點擊下一步
- 點擊後,進入以下頁面
- 這裏我們選第一個選項"無",拾取任務我們手動點擊運行
4.9 點擊添加部署
- 點擊後,進入以下頁面