tag 大數據

標籤
貢獻394
342
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

StarRocks - StarRocks 助力印度領先即時零售平台 Zepto 構建實時洞察能力

導讀: 開源無國界,在本期 “StarRocks 全球用户精選案例” 中,我們走進印度即時零售品牌 Zepto。 這家以 “10 分鐘送達” 聞名的公司,業務已覆蓋 50+ 城市、45,000+ 商品,品類橫跨生鮮雜貨、電子產品、美妝個護、服飾、玩具等。憑藉前沿技術與戰略佈局的前置倉網絡,Zepto 在短短几年間徹底改變了印度的即時零售格局。 隨着規模擴張,Zepto 藉助 StarRo

zepto , 大數據 , databricks , postgresql , starrocks

收藏 評論

吳大同 - qData 數據中台:全面支持 ARM 架構與信創國產化環境的兼容性説明

一、概述 qData 數據中台基於 Java、Vue 與 Spring Boot 技術體系構建,具備高度模塊化與跨平台特性,可在多種硬件與操作系統環境中穩定運行。 在國產化與信創體系持續深化的背景下,qData 已完成在 ARM 架構服務器(包括鯤鵬、飛騰、海光等)以及 信創軟硬件生態(涵蓋統信 UOS、銀河麒麟、達夢數據庫等)上的兼容性驗證與適配工作。該系統能夠在國產軟硬件環境下保持性能穩定與功

大數據 , 開源軟件 , 信創 , 數據中台 , arm

收藏 評論

吳大同 - qData數據中台【開源版】 v1.0.6 震撼發佈:全面重構,能力躍升!

所見即所得,全流程沉浸式體驗 —— qData 1.0.6 正式上線! 我們很高興地宣佈,qData 開源版 v1.0.6 正式發佈!這是一次從內到外的深度重構與能力升級,不僅帶來了多項重磅新功能,更對核心模塊進行了系統性優化,修復了大量歷史問題,全面提升穩定性、易用性與可維護性。 無論你是初次接觸數據中台的新用户,還是長期關注 qData 的開發者,本次更新都將為你帶來耳目一新的使用體驗。

大數據 , 開源軟件 , 數據中台 , 數據治理平台

收藏 評論

Tapdata鈦鉑 - 實時物化視圖的新路徑:從傳統 Join 到跨源實時查詢

在關係型數據庫的世界裏,join 是數據建模和查詢優化的核心。但隨着業務複雜度的提升,大量依賴 join 會讓系統變得笨重:查詢延遲增加,事務處理受阻,架構也越來越脆弱。 在文檔數據庫(如 MongoDB)以及更廣泛的分佈式系統中,類似 $lookup 的功能能夠滿足多集合查詢,但當它成為獲取完整視圖的主要方式時,也會帶來性能瓶頸。越來越多的團隊意識到:與其在查詢時臨時拼接數據,不如在數據生成和流

大數據

收藏 評論

合合技術團隊 - 啓信寶電影行業洞察:廣東蟬聯“雙冠王”,票房與企業數量全國第一

國家電影局數據顯示,2024年全國觀影總人次為10.1億,同比下滑23.1%。與此同時,啓信寶統計數據顯示,電影相關企業數量在五年內翻了三番,年均增速超25%。電影行業呈現“冰火兩重天”的態勢。 “消費端收縮、供給端活躍”的現象,勾勒出中國電影產業在深度調整期的真實圖景。近日,啓信寶發佈的《2025電影行業觀察報告》指出,行業的增長動力已從市場擴容轉向結構升級,資源向頭部企業、核心地域與AI技術高

大數據 , 算法 , 人工智能

收藏 評論

合合技術團隊 - 多模態文本智能大模型前沿技術與應用論壇在上海召開,合合信息推出多模態文本智能技術方案

隨着人工智能深入各行各業,多模態大模型正在成為AI發展的重要方向之一。近期,由中國圖象圖形學學會、中國人工智能學會、中國計算機學會和中國自動化學會聯合主辦,上海交通大學承辦的第八屆中國模式識別與計算機視覺學術會議(PRCV 2025)順利舉行。大會期間,“多模態文本智能大模型前沿技術與應用”論壇(簡稱“論壇”)獲得了廣泛關注。論壇彙集了來自華南理工大學、哈爾濱工業大學、南開大學、華中科技大學、小紅

大數據 , 算法 , 人工智能

收藏 評論

阿里雲大數據AI - 雲棲實錄 | 駛入智駕深水區:廣汽的“數據突圍“之路

2024年,中國城市智駕迎來全面爆發。在這場高階智能駕駛的競速賽中,廣汽正以穩健而堅定的步伐,向行業第一梯隊邁進。 廣汽的“星靈智行”ADiGO技術品牌,以AI重構智能汽車,全面推動AI賦能智能駕駛和智能座艙,加速汽車從“移動工具”,向“智能終端”進化。廣汽GSD智能輔助駕駛實現了對複雜城市場景的泛化理解能力。系統現已覆蓋至少35個主場景、357個子場景,在紅綠燈起停、擁堵博弈變道、待轉區左轉等高

大數據 , 阿里雲 , 人工智能

收藏 評論

海豚調度 - GSoC 成果公佈!印度開發者為 DolphinScheduler 引入通用 OIDC 認證,實現無縫安全訪問

導語:今年的 GSoC 已近尾聲,在這場代碼開發盛宴中,Apache DolphinScheduler 的開發者們積極參與,取得了一項對用户意義重大的成果——引入通用 OIDC 認證,實現無縫安全訪問。令人欣喜的是,該成果出自一位印度開發者之手。在項目導師 Gallardot 與向梓豪(SbloodyS)的精心指導下,這一成果成功在 Apache DolphinScheduler 中落地。今天,就

安全性 , dolphinscheduler , 大數據 , 任務調度 , 開源

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據日誌採集引擎Flume

Apache Flume支持採集各類數據發送方產生的日誌信息,並且可以將採集到的日誌信息寫到各種數據接收方。其核心是把數據從數據源(Source)收集過來,在將收集到的數據送到指定的目的地(Sink)。為了保證輸送的過程一定成功,在送到目的地(Sink)之前,會先緩存數據(Channel),待數據真正到達目的地(Sink)後,Flume再刪除自己緩存的數據。 一、 Apache Flume的體系架

大數據 , hadoop , flume , etl

收藏 評論

海豚調度 - DolphinScheduler依賴機制、Open-Falcon告警推送與監控的優化實踐

一、背景 DolphinScheduler(海豚調度器)作為開源分佈式調度系統,核心價值在於破解大數據場景下複雜任務的調度與流程編排難題,憑藉可靠的任務調度、可視化工作流管理等能力,已成為生產環境的核心調度中樞——當前95%以上的大數據任務均通過其實現協調調度。而Open-Falcon作為專注大規模分佈式系統的開源監控工具,二者形成"調度核心+監控中樞"的協同關係:前者承擔任務調度的核心職責,後者

dolphinscheduler , 大數據 , 任務調度 , 開源

收藏 評論

海豚調度 - 白鯨開源數據基建平台榮登“創客北京 2025”企業組TOP150,共同助 Agentic AI 行業變革

近日,第十屆“創客中國”北京市中小企業創新創業大賽暨“創客北京2025”創新創業大賽結果揭曉,北京白鯨開源科技有限公司憑藉“白鯨開源-Agentic AI 時代下的數據基礎設施平台”,榮登企業組 TOP150,並獲得大賽組委會頒發的獲獎證書。 據統計,本次 “創客北京” 活動共有 6000 + 項目報名參賽,規模亮眼。我司歷經初賽、決賽、總決賽多輪角逐,最終榮獲佳績。 在 AI 技術

大數據 , 創業團隊 , 創業 , 人工智能 , 開源

收藏 評論

SeaTunnel - 速看!用 Apache SeaTunnel 輕鬆實現數據到 S3 Tables 的快速集成

業務技術背景 在當今數字化轉型浪潮下,企業正面臨着海量數據的爆炸式增長,尤其在構建數據湖業務、BI分析以及AI/ML數據準備等關鍵場景中,需要高效、可擴展的大規模大數據存儲解決方案。這些場景往往要求數據存儲系統不僅能處理PB級甚至EB級的數據規模,還必須支持事務性操作,以確保數據一致性、原子性和隔離性,從而避免數據混亂或丟失的風險。 正因如此,Apache Iceberg作為一種先進的開源數據湖格

大數據 , aws-organizations , s3-rewrite-rules , seatunnel

收藏 評論

ApacheFlink - 實時計算 Flink 全新升級 - 全棧流處理平台助力實時智能

本文根據2025雲棲大會演講整理而成,演講信息如下 演講人:黃鵬程阿里雲智能集團計算平台事業部實時計算Flink版產品負責人 引言 在數據驅動的時代,實時數據處理已成為企業數字化轉型的核心能力。阿里雲實時計算Flink版用了十年時間來進行產品發展,從技術引進到自主創新,已成為實時數據處理的行業標杆。在這次雲棲大會上,阿里雲發佈了實時計算Flink的全新升級,不僅在計算和存儲層面實現重大突

大數據 , flink , 實時計算

收藏 評論

SeaTunnel - (二)從分層架構到數據湖倉架構:數據倉庫分層下的技術架構與舉例

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

大數據 , 技術架構 , 數據庫 , 數據湖

收藏 評論

阿里雲大數據AI - 雲棲實錄 | DataWorks 發佈下一代 Data+AI 一體化平台,開啓企業智能數據新時代

本文根據2025雲棲大會DataWorks產品年度發佈實錄整理而成 演講人:田奇銑,阿里雲智能集團計算平台事業部DataWorks產品負責人 DataWorks下一代Data+AI數據開發與治理平台,全面邁向“數據驅動智能、智能反哺數據”的新階段。作為中國大數據平台公有云市場份額和中國數據治理平台市場份額連續四年排名第一的領軍產品,DataWorks不僅見證了企業數字化轉型過程,更在生成式

大數據 , 阿里雲 , 人工智能

收藏 評論

阿里雲大數據AI - 阿里雲DLF 3.0:面向AI時代的智能全模態湖倉管理平台

在2025年雲棲大會上,阿里雲DLF產品負責人李魯兵正式發佈了DLF(DataLakeFormation)3.0,升級為面向AI時代的智能全模態湖倉管理平台。此次發佈標誌着DLF從傳統的湖倉管理工具,全面進化為支持結構化、半結構化與非結構化數據統一管理、安全開放、性能卓越的新一代數據基礎設施。本文將系統梳理DLF3.0的架構演進、核心能力、典型應用場景以及其在實際業務中的落地價值。 一、D

大數據 , 數據倉庫 , 阿里雲 , 數據湖

收藏 評論

合合技術團隊 - 合合信息與上海交通大學開展課題合作研究,共探智能文檔圖像處理前沿技術

計算機視覺技術作為AI的“眼睛”,是當前人工智能領域的重要研究方向。近期,計算機視覺領域三大頂級學術會議之一的國際計算機視覺大會(ICCV 2025)順利舉行。會議期間,合合信息聯合上海交通大學等機構主辦了首屆VQualA視覺質量評估研討會,同時,為了推動建立智能文檔圖像處理技術的標準化評估體系,研討會設置了文檔圖像質量評估競賽,競賽吸引了來自全球知名高校和研究機構的上百名選手參與。 文檔圖像質量

大數據 , 算法 , 人工智能

收藏 評論

SeaTunnel - Apache SeaTunnel 9 月動態:多模塊修復 + 新功能上線,社區貢獻成果亮眼

各位熱愛 Apache SeaTunnel 的小夥伴們,社區 9 月份月報來啦! 本月,社區 21 位貢獻者共同參與了 Apache SeaTunnel 的修復與功能升級,助力數據同步能力提升。 核心亮點總結 核心功能持續豐富:新增正則提取轉換、多模態嵌入、向量降維等Transform-V2能力;支持HDFS文件多表源讀取、Databend CDC模式接收,拓展數據處理場景。 多模塊問題修

數據同步 , 大數據 , 開源 , seatunnel , 開源項目介紹

收藏 評論

SeaTunnel - 數據採集故障頻發,中控技術靠SeaTunnel實現日均TB級核心數據同步任務0出錯

在企業數字化浪潮中,數據採集早已不是 "能同步就行" 的簡單命題——多元異構數據源的割裂、TB 級數據的吞吐壓力、跨系統同步的穩定性挑戰,正成為多數企業的 "數據頑疾"。而中控技術,這家服務全球 35000 家客户的工業 AI 平台型企業,卻用 Apache SeaTunnel 交出了一份驚豔答卷:核心數據同步任務實現 0 故障運行。 11 月 11 日 14:00,SeaTunnel 視頻號線

數據同步 , 大數據 , 技術分享 , 開源 , seatunnel

收藏 評論

SeaTunnel - (三)從分層架構到數據湖倉架構系列:數據倉庫分層之貼源層和數據倉庫層設計

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。 本文為系列文

大數據 , 數據倉庫 , 數據庫 , 開源 , 數據湖

收藏 評論

海豚調度 - Apache DolphinScheduler 9 月進展:工作流/任務執行等問題修復,性能再升級

各位熱愛 Apache DolphinScheduler 的小夥伴們,社區 9 月份月報姍姍來遲啦! 本月聚焦功能修復與性能優化,修復工作流計劃設置、HDFS 存儲啓動等關鍵問題,優化數據庫索引、Quartz 數據源配置等提升性能,11 位貢獻者共完成多項 PR,保障系統穩定高效運行。 月度Merge Star 感謝以下小夥伴上個月為 Apache DolphinScheduler 所做的精彩貢獻

dolphinscheduler , 大數據 , 任務調度 , 開源 , Javascript

收藏 評論

Smartbi - 思邁特軟件榮膺 “中國數智化轉型推薦供應商”,聯合浙版傳媒共築行業新標杆

近日,2025 IDC 中國 CIO 峯會暨數字化轉型年度頒獎典禮(下稱“峯會”)在上海圓滿落幕。作為數智化領域的年度盛會,峯會匯聚全國企業 CIO、行業專家及產業鏈代表等超600人,圍繞數字化轉型前沿趨勢與落地實踐路徑展開深度探討,為行業發展提供新思路。 在此次峯會上,思邁特軟件憑藉專業實力斬獲雙重認可:不僅獲評“2025 中國數智化轉型推薦供應商”,其與浙江出版傳媒股份有限公司(簡稱“浙版傳

bi , 大數據 , 數智化轉型 , 人工智能

收藏 評論

Aloudata大應科技 - Aloudata 亮相 2025 DACon 數智大會,為企業打造可信智能的 Data Agent

10 月 24 日,由國內知名大數據與人工智能技術社區 DataFun 主辦的 2025 DACon 數智大會在北京隆重舉行。此次大會以“大模型時代,Data + AI 的變與不變”為主題,聚焦大數據、大模型技術動態及 AI 應用實踐,涵蓋了汽車製造、金融、保險、電商、消費、零售、物流、軟件開發等行業領域。 Aloudata 大應科技產品專家趙禕祺受邀參會,帶來了《以 NoETL 指標語義層為核心

agent , 大數據 , etl , 人工智能 , 數據分析

收藏 評論

海豚調度 - 小白指南:Apache DolphinScheduler 補數據功能實操演示

最近使用 Apache DolphinScheduler 調度任務,不可避免地使用到【補數據】功能,經過不斷嘗試,終於成功運行了【補數據】功能,以此帖記錄。 版本説明:3.1.9 補數據功能簡介 "補數據" 在 Apache DolphinScheduler 中指的是 補數據(Complement Data) 功能,用於補充執行歷史時間段內的工作流實例。 補數據功能概述 補數據是工作流執行

dolphinscheduler , 大數據 , 數據庫 , 任務調度 , 開源

收藏 評論