@大數據

动态 列表
@seatunnel

數據採集故障頻發,中控技術靠SeaTunnel實現日均TB級核心數據同步任務0出錯

在企業數字化浪潮中,數據採集早已不是 "能同步就行" 的簡單命題——多元異構數據源的割裂、TB 級數據的吞吐壓力、跨系統同步的穩定性挑戰,正成為多數企業的 "數據頑疾"。而中控技術,這家服務全球 35000 家客户的工業 AI 平台型企業,卻用 Apache SeaTunnel 交出了一份驚豔答卷:核心數據同步任務實現 0 故障運行。 11 月 11 日 14:00,SeaTunnel 視頻號線

seatunnel 头像

@seatunnel

昵称 SeaTunnel

@ververica

雲棲實錄|馳騁在數據洪流上:Flink+Hologres驅動零跑科技實時計算的應用與實踐

本文根據 2025 雲棲大會演講整理而成,演講信息如下 演講人: 聶清 零跑汽車大數據高級專家 零跑科技的快速發展與數據挑戰 零跑科技成立於2015年12月,總部位於浙江杭州,是國內造車新勢力中唯一具備全域自研自造能力及垂直整合度最高的智能電動車企業。業務涵蓋整車設計、研發製造、智能駕駛等領域,始終致力於為用户創造價值。 特別值得一提的是,就在演講前一天,零跑迎來了第100萬台量產車的下

ververica 头像

@ververica

昵称 ApacheFlink

@njwutong

qData數據中台開源版快速部署教程(Docker Compose方式|官方教學視頻)

不少開發者在部署 qData數據中台開源版 時,常會遇到了環境依賴、端口衝突、容器啓動失敗等問題。 本視頻由 qData官方團隊 錄製,手把手演示如何在 Linux環境下通過 Docker Compose 一鍵部署完整的qData數據中台,幫助你快速完成系統搭建與運行。 📘 視頻內容 1️⃣ 環境與準備工作 2️⃣ 安裝並驗證 Docker / Docker Compose 3️⃣

njwutong 头像

@njwutong

昵称 吳大同

@ververica

Flink 智能調優:從人工運維到自動化的實踐之路

作者:黃睿阿里雲智能集團產品專家 本文基於阿里雲Flink平台的實際實踐經驗整理,希望能為廣大流計算從業者提供有價值的參考。 引言 在流計算領域,ApacheFlink作為業界領先的流處理引擎,為眾多企業提供了強大的實時數據處理能力。然而,隨着業務規模的不斷擴大和數據量的持續增長,如何確保Flink作業能夠長期穩定運行,同時實現資源的高效利用,成為了每個技術團隊都必須面對的核心挑戰。 根據前期用户

ververica 头像

@ververica

昵称 ApacheFlink

@smartbidashuju

Smartbi 10 月版本亮點:AIChat對話能力提升,國產化部署更安全

10 月版本煥新上線!Smartbi AIChat 與一站式 ABI 平台再升級,聚焦「交互體驗、數據效率、部署適配、安全管控」四大方向,解決溝通閉環、國產化遷移、大規模授權加載慢等實際業務痛點,讓數據分析更順暢、部署更靈活、安全更可靠,助力企業降本提效!下文為你拆解功能亮點~ 01 Smartbi AIChat 1 新增對話評論與回覆,雙向溝通更高效 AIChat 以往的反饋是單向的:用户提交問

smartbidashuju 头像

@smartbidashuju

昵称 Smartbi

@seatunnel

實測有效|用 SeaTunnel 免費實現 MySQL→Oracle 實時同步,步驟超細

要説 MySQL 同步到Oracle的工具,除了傳統的 OGG,應該考慮的就是 ST(SeaTunnel) 了吧,簡直太好用啦 ~ 當前生產已穩定運行 4 個月,源端 3 個庫,完美支持!推薦給大家試試~ 1. SeaTunnel怎麼用?來看看幫助信息 ./bin/seatunnel.sh -h Usage: seatunnel.sh [options] Options: -

seatunnel 头像

@seatunnel

昵称 SeaTunnel

@elhix0bg

從“字”到“畫”:基於Elasticsearch Serverless 的多模態商品搜索實踐

隨着人工智能技術的飛速發展,用户對於搜索體驗的要求早已超越了傳統的關鍵詞匹配。我們正處在一個從文本搜索向多模態、跨模態搜索演進的時代。用户希望能夠通過圖片、甚至是自然語言描述的複雜場景,來精準地找到他們想要的商品。然而,如何理解並檢索圖片中的視覺元素?如何處理那些文本標題無法完全概括的商品特徵?這些都是傳統搜索面臨的挑戰。 本文將深入探討多模態商品檢索的通用解決方案,詳細解讀其背後的兩大核心技術:

elhix0bg 头像

@elhix0bg

昵称 阿里雲大數據AI

@dewujishu

深入剖析時序Prophet模型:工作原理與源碼解析|得物技術

隨着得物業務的快速發展,積累了大量的時序數據,這些數據對精細化運營,提升效率、降低成本有着重要作用。在得物的時序數據挖掘場景中,時序預測Prophet模型使用頻繁,本文對Prophet的原理和源碼進行深入分析,歡迎閲讀和交流。 一、引入 時間序列是指按照時間先後順序收集或觀測的一系列數據點,這類數據通常都具有一定時間相關性,基於這種順序性,我們可以對時間序列進行多種數據挖掘任務,包括分類、聚類、異

dewujishu 头像

@dewujishu

昵称 得物技術

@mulavar

【Flink】TaskManager 內存模型及計算邏輯詳解

本文旨在詳解 Flink TaskManager 的內存模型以及其各部分內存佔比的計算邏輯。首先,結合官網展示了當前 Flink 的內存模型,並在之後結合 JVM 自身內存模型和管理機制結合講解 Flink 內存模型的各個部分,最後結合源碼解釋了各部分內存佔比的計算邏輯。 1 內存模型組成部分 本節摘自官網:https://nightlies.apache.org/flink/flink-docs

mulavar 头像

@mulavar

昵称 Mulavar

@aijianshendexuegao

AI 時代, 需要什麼樣的數據底座?

作者:楊克特 ProtonBase 技術副總裁 畢業於浙江大學計算機系,獲碩士學位,具備 10 多年核心系統設計和研發經驗。曾任阿里巴巴資深技術專家,負責過搜索引擎、資源調度、實時監控等系統的設計和研發。具備豐富的開源經驗,是 Apache Flink 和 Apache Druid 的 PMC 成員,以及 Apache 軟件基金會成員。 概念科普:Data Warebase = Data Ware

aijianshendexuegao 头像

@aijianshendexuegao

昵称 Protonbase

@elhix0bg

ODPS 十五週年實錄 | Data + AI,MaxCompute 下一個15年的新增長引擎

ODPS十五週年實錄|Data+AI,MaxCompute下一個15年的新增長引擎 本文根據ODPS十五週年·年度升級發佈實錄整理而成,演講信息如下: 於得水(得水):阿里雲智能集團計算平台事業部資深技術專家 活動:【數據進化·AI啓航】ODPS年度升級發佈 此次演講內容共分為三個部分: 第一部分,介紹MaxCompute面向Python和AI生態計算的演進歷史。從最初的SDKLibrary到表示

elhix0bg 头像

@elhix0bg

昵称 阿里雲大數據AI

@aloudata

重磅活動!3.14,與數智領袖共探 NoETL 指標平台最佳實踐

NoETL 指標平台重塑了指標開發協作模式。Aloudata CAN 以強大的指標定義和查詢加速能力,直連數倉公共層明細數據,自動化代持寬表與彙總表開發,實現了 NoSQL 指標定義、NoETL 指標開發、統一指標管理,一舉解決了指標“開發週期長、口徑不統一、分析不靈活、冗餘成本高”等頑疾,並在金融、消費零售、製造、ICT、能源、航空、醫療等多行業打造了標杆案例,為企業數據開發、消費與管理帶來了顛

aloudata 头像

@aloudata

昵称 Aloudata大應科技

@mirrorship

數據湖和數據倉庫的區別

在當今數據驅動的時代,企業需要處理和存儲海量數據。數據湖與數據倉庫作為兩種主要的數據存儲解決方案,各自有其獨特的優勢與適用場景。本文將客觀詳細地介紹數據湖與數據倉庫的基本概念、核心區別、應用場景以及未來發展趨勢,幫助讀者更好地理解和選擇適合自身需求的數據存儲方案。 一、基本概念 數據湖(Data Lake) 數據湖的概念最早由Pentaho公司的James Dixon在2011年提出,是一種能夠存

mirrorship 头像

@mirrorship

昵称 鏡舟科技

@ruanjiankaifa_xiaofanya

2025年企業數據遷移新方案:JVS低代碼用可視化配置實現海量數據自動映射

隨着數字化轉型的推動,低代碼開發在企業中應用的場景越來越多。但是企業在處理海量數據與系統對接時,常遇到困難。那麼如何快速將外部數據轉化為系統可識別的結構化模型?今天我們以JVS低代碼為例,詳細聊一聊。 在JVS低代碼系統中推出的數據轉模型組件,數據轉模型組件可以解決批量數據映射與關聯的問題。它通過自動化映射機制,將用户上傳的Excel、CSV等格式文件中的文本信息(如用户姓名、部門名稱、下拉

ruanjiankaifa_xiaofanya 头像

@ruanjiankaifa_xiaofanya

昵称 軟件部長

@starrocks

微信基於 StarRocks 的實時因果推斷實踐

作者: 張婧婧 騰旭微信數據科學家 熊吉祥 騰訊微信 OLAP 研發工程師、StarRocks Contributor本文整理自微信工程師 在 StarRocks 年度峯會上的分享,介紹了因果推斷在業務中的應用,詳細闡述了基於 StarRocks 構建因果推斷分析工具的技術方案,通過高效算子的支持,大幅提升了計算效率。例如,t 檢驗在 6億行數據上的執行時間僅需 1 秒。StarRocks

starrocks 头像

@starrocks

昵称 StarRocks

@seatunnel

(三)從分層架構到數據湖倉架構系列:數據倉庫分層之貼源層和數據倉庫層設計

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

seatunnel 头像

@seatunnel

昵称 SeaTunnel

@dolphinscheduler

小白指南:Apache DolphinScheduler 補數據功能實操演示

最近使用 Apache DolphinScheduler 調度任務,不可避免地使用到【補數據】功能,經過不斷嘗試,終於成功運行了【補數據】功能,以此帖記錄。 版本説明:3.1.9 補數據功能簡介 "補數據" 在 Apache DolphinScheduler 中指的是 補數據(Complement Data) 功能,用於補充執行歷史時間段內的工作流實例。 補數據功能概述 補數據是工作流執行

dolphinscheduler 头像

@dolphinscheduler

昵称 海豚調度

@leguandeludeng

不懂湖倉一體,別説你懂大數據

√不懂湖倉一體,別説你懂大數據 接觸數據的都聽過“湖倉一體”,有人就開始疑惑了:數據湖和數據倉庫不是夠用嗎?為什麼還要多餘再搞一個架構出來? 實際上,你接觸到的數據有:像客户信息、生產日誌和客服錄音等。它們的類型是不統一的,什麼結構化、半結構化甚至非結構化,很多時候它們常因為這個原因導致不能存放在一塊,也不能通用。 怎麼辦? 所以這時候就得靠搭建一個湖倉一體,把這些數據都存好,管好,目的就是為了輕

leguandeludeng 头像

@leguandeludeng

昵称 數據集成與治理

@leguandeludeng

一文講清數據要素,數據資產,數據治理和數字資產

我前些年在做數據支持的時候,每到開會時總會聽到: 業務部門説盤活數據資產,技術團隊卻在強調必須先做好數據治理; 管理層要求要釋放數據價值,財務部門卻在質疑:這些數據投入到底能帶來多少實際收益? 更麻煩的是,不同團隊對同一個數據指標的理解各不相同,導致報表數據對不上,會議時間都浪費在基礎概念的爭論上。 這些問題,其實就是沒把數據要素、數據資產、數據治理和數字資產幾個核心概念理清楚。 接下來,

leguandeludeng 头像

@leguandeludeng

昵称 數據集成與治理

@dolphinscheduler

Apache DolphinScheduler 9 月進展:工作流/任務執行等問題修復,性能再升級

各位熱愛 Apache DolphinScheduler 的小夥伴們,社區 9 月份月報姍姍來遲啦! 本月聚焦功能修復與性能優化,修復工作流計劃設置、HDFS 存儲啓動等關鍵問題,優化數據庫索引、Quartz 數據源配置等提升性能,11 位貢獻者共完成多項 PR,保障系統穩定高效運行。 月度Merge Star 感謝以下小夥伴上個月為 Apache DolphinScheduler 所做的精彩貢獻

dolphinscheduler 头像

@dolphinscheduler

昵称 海豚調度

@smartbidashuju

思邁特軟件榮膺 “中國數智化轉型推薦供應商”,聯合浙版傳媒共築行業新標杆

近日,2025 IDC 中國 CIO 峯會暨數字化轉型年度頒獎典禮(下稱“峯會”)在上海圓滿落幕。作為數智化領域的年度盛會,峯會匯聚全國企業 CIO、行業專家及產業鏈代表等超600人,圍繞數字化轉型前沿趨勢與落地實踐路徑展開深度探討,為行業發展提供新思路。 在此次峯會上,思邁特軟件憑藉專業實力斬獲雙重認可:不僅獲評“2025 中國數智化轉型推薦供應商”,其與浙江出版傳媒股份有限公司(簡稱“浙版傳

smartbidashuju 头像

@smartbidashuju

昵称 Smartbi

@aloudata

Aloudata 亮相 2025 DACon 數智大會,為企業打造可信智能的 Data Agent

10 月 24 日,由國內知名大數據與人工智能技術社區 DataFun 主辦的 2025 DACon 數智大會在北京隆重舉行。此次大會以“大模型時代,Data + AI 的變與不變”為主題,聚焦大數據、大模型技術動態及 AI 應用實踐,涵蓋了汽車製造、金融、保險、電商、消費、零售、物流、軟件開發等行業領域。 Aloudata 大應科技產品專家趙禕祺受邀參會,帶來了《以 NoETL 指標語義層為核心

aloudata 头像

@aloudata

昵称 Aloudata大應科技

@huikaichedemianbao

合合信息與上海交通大學開展課題合作研究,共探智能文檔圖像處理前沿技術

計算機視覺技術作為AI的“眼睛”,是當前人工智能領域的重要研究方向。近期,計算機視覺領域三大頂級學術會議之一的國際計算機視覺大會(ICCV 2025)順利舉行。會議期間,合合信息聯合上海交通大學等機構主辦了首屆VQualA視覺質量評估研討會,同時,為了推動建立智能文檔圖像處理技術的標準化評估體系,研討會設置了文檔圖像質量評估競賽,競賽吸引了來自全球知名高校和研究機構的上百名選手參與。 文檔圖像質量

huikaichedemianbao 头像

@huikaichedemianbao

昵称 合合技術團隊