Stories

List
Create Time

Apache SeaTunnel 支持 Metalake 開發了!避免任務配置敏感信息暴露

今年的開源之夏活動已接近尾聲,Apache SeaTunnel 社區的開發者們在經過漫長的開發過程也都收穫了自己的成果。上週,我們通過文章《巾幗力量助力 Flink 引擎 CDC 源模式演進》分享了董嘉欣同學的開發故事,今天,讓來看看另一位同學——來自上海交通大學軟件工程專業的吳天宇,在本次活動中是如何完成開發任務的吧! 個人介紹 吳天宇,來自上海交通大學軟件工程專業,目前是碩士二年級學生(Git

Create Time

LLM 時代,DataAgent × WhaleTunnel 如何將數據庫變更瞬時 “轉譯” 為洞察?

在軟件世界中,用户的形態正在發生變化。 過去,軟件的使用者是工程師、分析師或運維人員;而如今,他們正在被一羣“數字化身”——Agent 所取代。AI 不再只是一個算法模型,而是逐漸演變為能理解業務語境、自動執行任務、並進行協同決策的智能體。 隨着大模型技術的快速成熟,這場以 “Agent 化” 為核心的軟件革命,正推動企業數據系統從傳統的自動化,走向真正的智能化。 在這一趨勢中,數據基礎設施的智

Create Time

從日誌到告警,帶你用好 SeaTunnel 的事件監聽能力

在數據集成任務日益複雜的今天,如何實時掌握作業執行過程中的關鍵事件,並基於這些事件觸發後續邏輯處理,已經成為企業構建數據平台時不可或缺的一環。Apache SeaTunnel 從 2.3.0 開始引入了全新的事件監聽機制(Event Listener),為用户提供了靈活的鈎子體系,助力構建更智能、更具業務驅動的數據集成流程。 本文將圍繞事件監聽機制的整體架構、核心概念、使用方式與最佳實踐,帶你深入

Create Time

一行代碼引發 12G 內存 5 分鐘爆倉!SeaTunnel Kafka 連接器"內存溢出"元兇抓到了

轉載 | 滑思眉Philip 問題背景 在Apache SeaTunnel 2.3.9版本的Kafka連接器實現中,存在一個潛在的內存溢出風險。當用户配置流式作業從Kafka讀取數據時,即使設置了讀取速率限制(read_limit.rows_per_second),系統仍可能出現內存持續增長直至OOM(Out Of Memory)的情況。 問題現象 用户在實際部署中觀察到以下現象: 在8核1

Create Time

速看!用 Apache SeaTunnel 輕鬆實現數據到 S3 Tables 的快速集成

業務技術背景 在當今數字化轉型浪潮下,企業正面臨着海量數據的爆炸式增長,尤其在構建數據湖業務、BI分析以及AI/ML數據準備等關鍵場景中,需要高效、可擴展的大規模大數據存儲解決方案。這些場景往往要求數據存儲系統不僅能處理PB級甚至EB級的數據規模,還必須支持事務性操作,以確保數據一致性、原子性和隔離性,從而避免數據混亂或丟失的風險。 正因如此,Apache Iceberg作為一種先進的開源數據湖格

Create Time

(二)從分層架構到數據湖倉架構:數據倉庫分層下的技術架構與舉例

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

Create Time

Apache SeaTunnel 9 月動態:多模塊修復 + 新功能上線,社區貢獻成果亮眼

各位熱愛 Apache SeaTunnel 的小夥伴們,社區 9 月份月報來啦! 本月,社區 21 位貢獻者共同參與了 Apache SeaTunnel 的修復與功能升級,助力數據同步能力提升。 核心亮點總結 核心功能持續豐富:新增正則提取轉換、多模態嵌入、向量降維等Transform-V2能力;支持HDFS文件多表源讀取、Databend CDC模式接收,拓展數據處理場景。 多模塊問題修

Create Time

數據採集故障頻發,中控技術靠SeaTunnel實現日均TB級核心數據同步任務0出錯

在企業數字化浪潮中,數據採集早已不是 "能同步就行" 的簡單命題——多元異構數據源的割裂、TB 級數據的吞吐壓力、跨系統同步的穩定性挑戰,正成為多數企業的 "數據頑疾"。而中控技術,這家服務全球 35000 家客户的工業 AI 平台型企業,卻用 Apache SeaTunnel 交出了一份驚豔答卷:核心數據同步任務實現 0 故障運行。 11 月 11 日 14:00,SeaTunnel 視頻號線

Create Time

(三)從分層架構到數據湖倉架構系列:數據倉庫分層之貼源層和數據倉庫層設計

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

Create Time

最佳實踐:基於Apache SeaTunnel從MySQL同步到PostgreSQL

作者 | 陳飛 中付支付大數據工程師 今天和大家分享一個 簡單但常見的 MySQL 到 MySQL 數據同步與合併場景案例,這個案例也是我在實際工作中遇到的問題,希望能拋磚引玉,歡迎有更豐富經驗的大佬一起分享交流。 版本要求:Apache SeaTunnel -- Apache SeaTunnel-2.3.9 場景描述 在我們的業務系統中,存在兩個 MySQL 源庫: source_a