博客 / 詳情

返回

Doris 高速查詢背後的秘密:如何用 ETL 工具提升數據導入效率

當前正處於數據大爆發時代,數據海量增長的同時,決策時效性要求也提高了, 企業不再滿足於T+1的報表,而是需要秒級甚至毫秒級的實時數據分析來支撐運營決策(如實時風控、精準營銷、業務監控)。另一方面,技術架構的複雜性與成本效率之間的矛盾: 傳統大數據架構(如Hadoop生態)組件繁多、架構複雜、運維成本高,很多企業渴望更簡單、更一體化的解決方案。在這個背景下,“速度”與“易用性” 成為了下一代數據分析平台的核心競爭力。在當今這個追求實時價值、成本可控、技術普惠的時代背景下,Doris精準地定位了自己,成為了構建現代實時數據倉庫和分析平台的一個非常具有吸引力的選擇。

而在業務數據庫與Doris數倉分析之間,我們還需要做數據同步,接下來會使用ETLCloud進行從源端PostgreSql到Doris的高效離線全量數據同步與實時增量數據同步。

一、配置數據源

在構建數據同步管道之前,我們需要使用ETLCloud平台連接上源端PostgreSql和Doris數據庫。

來到ETLCloud平台首頁,進入數據源管理模塊。

圖片 1
首先我們創建Doris的數據源,由於數據源連接要指定一個分類,這個分類一般是以數據庫的類型命名以便後續方便管理,初始化的分類沒有Doris我們可以在這裏手動創建一個。

圖片 2

創建完分類後,點擊創建好的分類,點擊新建數據源按鈕來創建一個數據源連接。

圖片 3

根據彈窗提示配置數據源連接參數。

注意,Doris的端口有很多,在數據源管理這裏我們在Url配置的端口是Doris的query端口。

圖片 4

配置完成點擊保存並測試連接,顯示連接成功即可。

圖片 5

接下來配置源端PostgreSql的數據源連接。

圖片 34

PostgreSql數據源的具體配置:

圖片 35

到這裏,ETLCloud已經打通了源端和目標端的數據庫配置,接下來配置數據同步流程。

二、構建離線全量數據同步流程

來到平台首頁,進入離線數據集成模塊。

圖片 6

首先這裏我們一會要用到的組件是Doris快速輸出組件,這個是免費組件但不是初始化系統自帶的,我們要到官網購買一下這個組件,並根據官網幫助文檔的安裝文檔去安裝一下組件。

圖片 7

進入一個離線應用,來到所有數據流程這裏,創建一個新的流程。

圖片 8

圖片 9

圖片 10

設計一個這樣的流程。

圖片 11

圖片 12

圖片 13

圖片 14

圖片 15

圖片 16

圖片 17

配置完流程點擊上方工具欄的運行按鈕。

圖片 18

圖片 20

流程運行結束,數據成功同步。

圖片 19

三、實時增量數據同步

接下來配置實時增量數據同步流程,當源端數據發生變更,平台立馬採集變更的數據同步到目標端,保存源端與目標端的數據實時的一致性。

首先在離線數據集成這裏創建一個流程。

圖片 1

圖片 2

流程設計只需要一個Doris快速輸出組件。

圖片 3

圖片 4

圖片 5

配置完離線流程後,來到實時數據集成模塊,創建一個數據庫監聽器。

圖片 6

圖片 7

圖片 8

啓動數據庫監聽器。

圖片 9

顯示增量已啓動説明監聽器啓動成功。

圖片 10

對源端PostgreSql的表數據進行修改。

圖片 11

監聽器可以看到數據傳輸記錄。

圖片 12

檢查目標表,源端修改的數據成功同步到目標表這裏來。

圖片 13

四、最後

以上便是通過ETLCloud打通PostgreSql與Doris的流程,通過Doris的官方提供的Stream Load數據導入方式,離線數據集成可以讓我們快速同步業務庫的整庫數據庫到Doris中進行數據挖掘分析,而實時數據集成能保證Doris的數據與源端業務庫的強一致性,更大地發揮Doris的優勢。

user avatar jixingsuiyuan 頭像
1 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.