动态

详情 返回 返回

讓 ETL 更懂語義:DataWorks 支持數據集成 AI 輔助處理能力 - 动态 详情

在生成式 AI 浪潮下,數據不再只是“被搬運的原料”,更應是“可理解、可推理、可挖掘價值”的智能資產。然而,傳統 ETL(Extract-Transform-Load)流程仍停留在結構化數據處理層面,面對海量文本、日誌、反饋等非結構化數據時,往往依賴人工標註或複雜開發鏈路,效率低、成本高、響應慢。

為此,阿里雲大數據開發治理平台 DataWorks 數據集成全新智能化升級,以“ AI 釋放數據價值”為核心,正式推出 AI 輔助處理能力,並將該功能在阿里雲全球所有地域全面開放!將大模型語義理解、AI 智能分析能力深度融入離線同步任務的數據集成任務,真正實現“讓每一條數據流都能思考”。

核心能力-開箱即用的智能 ETL 引擎

DataWorks Serverless 資源組全新升級,支持大模型一鍵部署與高效調用!現已支持 Qwen3 系列、DeepSeek 系列及 Embedding 模型,提供多種 GPU 規格按需選用,按量付費,靈活成本。通過 AI Function 可便捷調用模型服務,小尺寸模型推理性能提升近 10 倍,並支持使用 DataWorks Serverless CU 資源抵扣,助力 AI 應用快速構建與彈性擴展。

DataWorks 數據集成現已支持在離線同步任務中直接調用大模型服務,用户無需部署模型、無需編寫代碼、無需額外付費,只需通過自然語言提示(Prompt),即可完成複雜的數據清洗、增強與語義結構化操作。

功能 説明
AI 輔助處理 支持情感分析、文本分類、摘要生成、關鍵詞提取、翻譯等常見 NLP 任務
向量化(Embedding)處理 自動將文本字段轉化為高維向量,用於語義搜索、RAG、推薦系統等 AI 應用
多平台模型支持 通過阿里雲 DataWorks 部署模型服務

通過阿里雲 PAI 模型市場開通模型服務

* 通過阿里雲百鍊平台開通大模型服務
零代碼配置 全圖形化界面操作,業務人員也能輕鬆定義 AI 處理邏輯
結果直寫目標表 所有 AI 處理結果可直接映射至目標數據庫字段,無縫對接下游應用

整個過程完全託管,且 AI 處理功能本身不額外收費 —— 您只需為同步任務消耗的計算資源付費,與其他普通離線同步任務計費方式完全一致。

適用場景-多行業多場景賦能企業 AI 落地

智能數據處理在數據同步 ETL 流程中可廣泛應用於多個企業場景,通過情感分析、摘要生成、關鍵詞提取、翻譯和向量化等能力提升數據處理效率與洞察深度。這些應用可以顯著提升了企業的決策支持能力和運營智能化水平。

1、電商客服場景:用户反饋分析與情感分類

示例,客户留言:“快遞太慢了,等了半個月還沒到!”

數據處理場景 提示語 處理結果示例
情感分析 對用户投訴/諮詢文本進行情感分類(正面/負面/中性) 負面
摘要生成 將長文本的用户反饋壓縮為簡短摘要,提取核心問題 用户投訴物流時效問題
關鍵詞提取 識別高頻問題關鍵詞(如“物流延遲”“產品質量”) 物流延遲、快遞、時效

👉 自動歸類千萬級評論,支撐運營決策與服務質量優化。

2.、智能汽車場景:設備日誌分析與預測性維護

示例,日誌內容:“The break pump pressure:abnormal; sensor exceeding : 15%”

數據處理場景 提示語 處理結果示例
文本總結 將設備運行日誌中的故障描述壓縮為關鍵信息 剎車泵浦壓力超限,需立即檢查
嚴重性判斷 判斷日誌中描述的故障嚴重性(如“緊急”“警告”) 高危
翻譯 統一翻譯為中文 剎車泵浦壓力異常,傳感器顯示值高於閾值15%

👉 將非結構化日誌轉為結構化告警信息,助力預測性維護系統快速響應。

3、供應鏈場景:供應商反饋分析與風險預警

示例,供應商郵件:“We are unable to fulfill the order due to a shortage of raw materials.”

數據處理場景 提示語 處理結果示例
情感分析 評估供應商合作態度(積極/消極) 消極
摘要生成 提取供應商反饋的核心問題(如“交付延遲”) 供應商因原材料短缺無法完成訂單
翻譯 將非中文供應商郵件翻譯為中文 由於原材料短缺,我們無法完成該訂單

👉 自動識別交付風險,提前觸發備選供應商調度機制。

4、法律場景:合同條款分析與風險標註

示例,合同條款:“In the event of force majeure, the delivery deadline may be extended.”

數據處理場景 提示語 處理結果示例
摘要生成 提取合同核心條款(如付款條件、違約責任) 不可抗力條款允許延期交貨
關鍵詞提取 識別關鍵法律術語(如“不可抗力”“仲裁條款”) 不可抗力、交貨期限
翻譯 將外文合同翻譯為中文 若發生不可抗力,交貨期限可延長

👉 提升法務審查效率,降低合同履約風險。

案例説明

接下來介紹如何使用AI輔助處理功能,將數據來源表中feedback_info列的數據翻譯為英文並同步至目標表。

來源表數據準備

CREATE TABLE customer_feedback (
    id BIGINT PRIMARY KEY,
    device STRING,
    feedback_info STRING,
    pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');

INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', '價格實惠,適合學生黨,性能夠用', 2020),
(1, 'iphone', '這個商品還行,我用了1年', 2013),
(10, 'Bose QuietComfort 35 II', '降噪耳機中的經典,舒適度滿分', 2021);

一、創建離線同步任務

進入DataWorks工作空間列表頁,在頂部切換至目標地域,找到已創建的工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

在左側導航欄單擊按鈕</>,進入數據開發頁面,在項目目錄右側單擊按鈕+,選擇新建節點 > 數據集成 > 離線同步,進入新建節點對話框。

設置節點路徑、數據來源去向和節點名稱後,單擊確認,創建離線同步節點。

本文以Hologres同步至Hologres為例,介紹離線同步任務中的AI輔助處理功能。

二、配置同步任務

創建離線同步節點後,會自動進入任務編輯頁面,您需要在此頁面配置如下信息:

1、數據源

分別配置數據同步任務的數據來源和數據去向。

類型:創建離線同步任務步驟中已選擇的數據來源和去向的數據源類型,不支持修改,如需修改請重新創建離線同步任務。

配置方式:

快速配置:手動配置數據來源與數據去向的連接信息,詳細的配置參數解釋可在配置界面查看對應參數的文案提示。

使用已有數據源:請在數據源參數後的下拉列表中選擇已創建的數據源。

説明

數據源中只展示對應類型的數據源。
image.png

2、運行資源

選擇同步任務所使用的資源組。如果使用 Serverless 資源組,您還可以為該任務分配資源佔用 CU 數。

選擇資源組後,數據集成將自動檢測資源組與數據來源、數據去向的連通性,您也可以手動單擊連通性檢查。
image.png

3、數據來源

配置數據來源具體待同步的表信息,如Schema、表、分區和數據過濾條件等。您可以單擊數據預覽,查看待同步的具體數據。
image.png

4、數據處理

在數據處理區域,您可以開啓數據處理能力,數據處理能力需要更多的計算資源,會增加任務的資源佔用開銷。

單擊添加節點,當前支持字符串替換和AI輔助處理。本案例以AI輔助處理為例進行介紹。
image.png

配置AI輔助處理相關信息。
image.png

關鍵參數解釋如下:

參數 描述
模型提供商 支持阿里雲DataWorks模型服務、阿里百鍊平台、阿里雲PAI模型市場。
模型名稱 負責智能數據處理的模型,按需選擇。
API Key 訪問模型的API KEY,請前往模型提供商獲取。
阿里雲百鍊平台:獲取百鍊API Key。
阿里雲PAI模型市場:前往部署的EAS任務,進入在線調試,獲取Token,將其作為API KEY填寫到此處。
處理工作描述 請使用自然語言描述對來源字段的處理,字段名以#{column_name}格式書寫。例如,本案例中,此處填寫請將'#{feedback_info}'翻譯成英文
寫入字段 此處請輸入存儲結果字段的名稱,如果對應字段不存在,將自動新增一個字段。

説明

本案例的示例配置中,會將來源表的feedback_info字段翻譯成英文,並存儲到feedback_processed字段中。

您可以單擊AI輔助處理區域右上角的數據輸出預覽,查看輸出的最終數據效果。

(可選)您可以配置多個先後按順序執行的數據處理流程。
image.png

5、數據去向

配置數據同步的目標表信息,例如Schema、表名、分區等。

您可以單擊一鍵生成目標表結構,快速生成目標表。

如果目標端中已存在表用於接收數據,則按需選擇即可。

配置寫入模式以及寫入衝突策略。
image.png

配置同步前是否要清空Hologres表中的已有數據。

(可選)配置最大連接數。

最大連接數僅在寫入模式為SQL(INSERT INTO)下生效,在開啓任務時請確保Hologres實例有充足的空閒連接。一個任務最多使用9個連接。

6、去向字段映射

配置完成數據來源、數據處理和數據去向後,會在此處展示來源與去向表間的字段映射關係,默認為同名映射和同行映射,你也可以按需進行調整。

説明

本案例中除了將源表已有字段(iddevicefeedback_infopt)同名映射外,還需要手動將源表中存儲翻譯後結果的feedback_processed字段,映射至目標表的translate_feedback字段中。
image.png

三、調試任務

在離線同步任務的編輯窗口右側,單擊調試配置,配置調試本節點使用的資源組和相關腳本參數。

單擊節點頂部工具欄的保存,然後單擊運行,等待運行結束,查看運行結果是否成功,您可以前往目標端數據庫查看錶數據是否符合預期。

四、調度配置

若離線同步節點需要週期性調度執行,您需要在節點右側的調度配置中設置調度策略,配置相關的節點調度屬性。

五、節點發布

請單擊節點工具欄的發佈圖標喚起發佈流程,通過該流程將任務發佈至生產環境。只有在發佈至生產環境後,才會進行週期性調度。

後續操作:任務運維

節點發布後,您可以在發佈流程中單擊補數據或去運維。

補數據:僅支持對當前節點進行補數據。如果需要更復雜的補數據功能請前往運維中心操作。更多信息,請參見執行補數據並查看補數據實例(新版)。

去運維:任務發佈後將自動進入運維中心,您可在運維中心查看任務運行情況,或手動觸發任務執行。詳情請參見:運維中心。

user avatar u_16776161 头像 u_15511034 头像 u_16640205 头像
点赞 3 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.