tag 大數據

標籤
貢獻394
345
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

ApacheFlink - 雲棲實錄|馳騁在數據洪流上:Flink+Hologres驅動零跑科技實時計算的應用與實踐

本文根據 2025 雲棲大會演講整理而成,演講信息如下 演講人: 聶清 零跑汽車大數據高級專家 零跑科技的快速發展與數據挑戰 零跑科技成立於2015年12月,總部位於浙江杭州,是國內造車新勢力中唯一具備全域自研自造能力及垂直整合度最高的智能電動車企業。業務涵蓋整車設計、研發製造、智能駕駛等領域,始終致力於為用户創造價值。 特別值得一提的是,就在演講前一天,零跑迎來了第100萬台量產車的下

大數據 , flink , 實時計算

收藏 評論

吳大同 - qData數據中台開源版快速部署教程(Docker Compose方式|官方教學視頻)

不少開發者在部署 qData數據中台開源版 時,常會遇到了環境依賴、端口衝突、容器啓動失敗等問題。 本視頻由 qData官方團隊 錄製,手把手演示如何在 Linux環境下通過 Docker Compose 一鍵部署完整的qData數據中台,幫助你快速完成系統搭建與運行。 📘 視頻內容 1️⃣ 環境與準備工作 2️⃣ 安裝並驗證 Docker / Docker Compose 3️⃣

大數據 , 開源軟件 , docker-compose , 數據中台

收藏 評論

bigdata1 - Flink 內存模型和生產環境調優

Flink 自1.1版本起通過FLIP-49 Unified Memory Configuration for TaskExecutors 和FLIP-116 Unified Memory Configuration for Job Managers對 TaskManager 和 JobManager 的內存模型進行了重大重構,統一了內存配置方式,本文詳細介紹 Flink TaskManager

大數據

收藏 評論

ApacheFlink - Flink 智能調優:從人工運維到自動化的實踐之路

作者:黃睿阿里雲智能集團產品專家 本文基於阿里雲Flink平台的實際實踐經驗整理,希望能為廣大流計算從業者提供有價值的參考。 引言 在流計算領域,ApacheFlink作為業界領先的流處理引擎,為眾多企業提供了強大的實時數據處理能力。然而,隨着業務規模的不斷擴大和數據量的持續增長,如何確保Flink作業能夠長期穩定運行,同時實現資源的高效利用,成為了每個技術團隊都必須面對的核心挑戰。 根據前期用户

大數據 , flink , 實時計算

收藏 評論

Smartbi - Smartbi 10 月版本亮點:AIChat對話能力提升,國產化部署更安全

10 月版本煥新上線!Smartbi AIChat 與一站式 ABI 平台再升級,聚焦「交互體驗、數據效率、部署適配、安全管控」四大方向,解決溝通閉環、國產化遷移、大規模授權加載慢等實際業務痛點,讓數據分析更順暢、部署更靈活、安全更可靠,助力企業降本提效!下文為你拆解功能亮點~ 01 Smartbi AIChat 1 新增對話評論與回覆,雙向溝通更高效 AIChat 以往的反饋是單向的:用户提交問

大數據 , 版本更新 , 數據分析

收藏 評論

數據集成與治理 - 不懂湖倉一體,別説你懂大數據

√不懂湖倉一體,別説你懂大數據 接觸數據的都聽過“湖倉一體”,有人就開始疑惑了:數據湖和數據倉庫不是夠用嗎?為什麼還要多餘再搞一個架構出來? 實際上,你接觸到的數據有:像客户信息、生產日誌和客服錄音等。它們的類型是不統一的,什麼結構化、半結構化甚至非結構化,很多時候它們常因為這個原因導致不能存放在一塊,也不能通用。 怎麼辦? 所以這時候就得靠搭建一個湖倉一體,把這些數據都存好,管好,目的就是為了輕

大數據 , 數據倉庫 , 數據可視化 , 數據庫

收藏 評論

數據集成與治理 - 一文講清數據要素,數據資產,數據治理和數字資產

我前些年在做數據支持的時候,每到開會時總會聽到: 業務部門説盤活數據資產,技術團隊卻在強調必須先做好數據治理; 管理層要求要釋放數據價值,財務部門卻在質疑:這些數據投入到底能帶來多少實際收益? 更麻煩的是,不同團隊對同一個數據指標的理解各不相同,導致報表數據對不上,會議時間都浪費在基礎概念的爭論上。 這些問題,其實就是沒把數據要素、數據資產、數據治理和數字資產幾個核心概念理清楚。 接下來,

大數據 , 教程 , 數據可視化 , 知識 , 數據庫

收藏 評論

數據集成與治理 - 從數據管理的角度,理解數據治理的內容

一説到“數據治理”,很多人都會説:不就是讓數據更好用嗎?我都聽煩了。 但問題不在於“懂不懂”,而是“會不會用”。就比如數據部門經常會出現的情況—— 銷售和財務報出的業績數據對不上;月底報表總要花大量時間手工核對;想分析客户行為,卻發現基礎信息殘缺不全? 這些正是數據缺乏有效治理和管理的直接體現。 數據治理不是空談,而是解決這些痛點的系統性方法,它的核心,正是數據管理。今天我就從數據管理的角度,來跟

數據管理 , 大數據 , 教程 , 知識

收藏 評論

代碼匠心 - 從零開始學Flink:事件驅動

在實時計算領域,很多業務邏輯天然適合“事件驅動”模式:當事件到達時觸發處理、在某個時間點觸發補償或彙總、根據狀態變化發出告警等。Apache Flink 為此提供了強大的 ProcessFunction 家族(KeyedProcessFunction、CoProcessFunction、BroadcastProcessFunction 等),它們在算子層面同時具備“事件處理 + 定時器 + 狀態”

大數據 , 事件驅動 , JAVA , flink , 數據處理

收藏 評論

海豚調度 - 真實遷移案例:從 Azkaban 到 DolphinScheduler 的選型與實踐

一、為什麼我們放棄了Azkaban? 我們最早選擇用 LinkedIn 開源的 Azkaban 做調度,主要是看中它兩個特點:一是界面清爽,操作簡單;二是它用“項目”來管理任務,非常直觀。那時候團隊剛開始搭建數據平台,這種輕量又清晰的工具,正好符合我們的需要。其他還有其他原因: 社區活躍(當時) 部署簡單,依賴少(僅需 MySQL + Web Server + Executor) 支持 j

dolphinscheduler , 大數據 , 數據庫 , 任務調度 , 開源

收藏 評論

海豚調度 - Apache DolphinScheduler 3.3.2 正式發佈!性能與穩定性有重要更新

我們非常高興地宣佈,Apache DolphinScheduler 3.3.2 正式發佈! 本次版本重點圍繞 性能優化、穩定性增強、文檔完善與關鍵問題修復 展開,為廣大用户帶來更加順暢、可靠的數據工作流編排體驗。 主要改進內容 1. 穩定性與數據庫性能提升 在表 t_ds_schedules 中為字段 workflow_definition_code 新增索引,大幅提升訪問調度信息時的數據庫

資訊 , dolphinscheduler , 大數據 , 開源

收藏 評論

SeaTunnel - Apache SeaTunnel 支持 Metalake 開發了!避免任務配置敏感信息暴露

今年的開源之夏活動已接近尾聲,Apache SeaTunnel 社區的開發者們在經過漫長的開發過程也都收穫了自己的成果。上週,我們通過文章《巾幗力量助力 Flink 引擎 CDC 源模式演進》分享了董嘉欣同學的開發故事,今天,讓來看看另一位同學——來自上海交通大學軟件工程專業的吳天宇,在本次活動中是如何完成開發任務的吧! 個人介紹 吳天宇,來自上海交通大學軟件工程專業,目前是碩士二年級學生(Git

大數據 , 開源 , seatunnel , 開發者 , 軟件工程

收藏 評論

SeaTunnel - LLM 時代,DataAgent × WhaleTunnel 如何將數據庫變更瞬時 “轉譯” 為洞察?

在軟件世界中,用户的形態正在發生變化。 過去,軟件的使用者是工程師、分析師或運維人員;而如今,他們正在被一羣“數字化身”——Agent 所取代。AI 不再只是一個算法模型,而是逐漸演變為能理解業務語境、自動執行任務、並進行協同決策的智能體。 隨着大模型技術的快速成熟,這場以 “Agent 化” 為核心的軟件革命,正推動企業數據系統從傳統的自動化,走向真正的智能化。 在這一趨勢中,數據基礎設施的智

llm , 數據同步 , 大數據 , 開源 , seatunnel

收藏 評論

合合技術團隊 - 啓信寶獲得法博會“行業洞見獎”,相關服務即將登陸“深律通”

為構建多元聯動、創新開放的法律服務體系,近日,以“以法律創新護航科技與產業創新”為主題的2025深圳法律服務博覽會(下稱“法博會”)順利舉辦,吸引國內外權威機構和行業專家參與。合合信息旗下啓信寶憑藉其在法律科技領域的創新應用,於法律科技產品大賽中斬獲“行業洞見獎”。該獎項由深圳市律師協會組織評選,體現了法律行業對啓信寶產品創新性、實用性與可推廣性的權威認可。後續啓信寶相關功能將正式接入深圳市律師協

大數據 , 算法 , 人工智能

收藏 評論

劉大貓 - Redis 搭建主從複用-讀寫分離和主備切換,及重要的關鍵詞解釋 部分2

# 3.10註釋公共配置追加文件 根據需求配置是否打開追加文件選項 appendonly yes - 每當 Redis 執行一個改變數據集的命令時(比如 SET),這個命 令就會被追加到 AOF 文件的末尾。這樣的話,當 Redis 重新啓時,程序就可以通過重新執 行 AOF 文件中的命令來達到重建數據集的目的。 3.11從服務器默認是隻讀不允許寫操作(不用修改) 4. 添

大數據 , 雲計算 , 算法 , 物聯網 , 人工智能

收藏 評論

clougence - 百草味數據架構升級實踐:打造 Always Ready 的企業級數據平台

朱齊天,百草味數據部負責人 前言 百草味是國內知名的休閒零食品牌,業務覆蓋線上電商平台與線下零售渠道,服務用户超過 2 億。隨着商品 SKU 數量劇增和渠道多元化發展,百草味在供應鏈、運營、銷售等環節積累了海量數據,對數據的依賴也日益增強。 在這一背景下,百草味選擇與 CloudCanal 合作,構建統一的數據集成平台,支撐數據驅動的業務運營與決策。 業務背景 百草味的業務涵蓋從原料採購、生

大數據 , MySQL , 數據庫 , starrocks , 數據分析

收藏 評論

數據集成與治理 - 終於有人把數據庫搭建講清楚了

在信息時代,數據已成為最寶貴的資產。 如何科學地管理這些數據,讓它們從雜亂的信息碎片成為有序的知識寶藏? 我們可以藉助數據庫來實現,數據庫能讓數據管理變得高效可靠。 你看,從網站用户信息到購物記錄,從業務報表到日誌數據,幾乎所有現代應用都離不開數據庫的支撐。 今天我就來給大家聊聊數據庫怎麼搭建,有哪些困難和挑戰,在今後發展中,它有着什麼樣的發展趨勢。 一、數據庫的定義 數據庫,就是一個高度結構化的

觀點 , 大數據 , 教程 , 數據庫

收藏 評論

合合技術團隊 - 讓大模型一鍵“讀懂”全球文檔,合合信息攜手火山引擎打造AI智能體新範式

當前,大模型的發展正加速進入“強應用”階段。中國信通院7月數據顯示,國內已發佈大模型超過1500個。如何打通諸多大模型落地的“最後一公里”,讓技術從“實驗室”走向“生產線”,成為全行業共同探索的課題。 近日,由合合信息TextIn打造,火山引擎提供平台支撐的“大模型加速器”升級版正式發佈。 雙方將共同打造文本智能領域的AI創新應用,為企業與開發者提供一站式AI工程化能力,通過補全“從模型到應用”的

大數據 , 算法 , 人工智能

收藏 評論

SeaTunnel - 結項報告完整版:Apache SeaTunnel 支持 Flink 引擎 Schema Evolution 功能

過去兩週,我們對開源之夏活動中表現優異的開發者們進行了簡單的採訪,初步粗略地瞭解了一下他們的開發過程和心得體會。今天,我們將通過同學們的完整結項報告,深入瞭解項目的開發技術細節,希望能夠幫助大家更好地瞭解 Apache SeaTunnel 項目的最新進展。 接下來是關於在 Flink 引擎上對 Schema Evolution 功能的支持這一項目的完整報告: 一. 已完成工作 根據原定方案(htt

數據同步 , 大數據 , 開源 , seatunnel , flink

收藏 評論

SeaTunnel - 結項報告完整版 | Apache SeaTunnel支持metalake開發

過去兩週,我們對開源之夏活動中表現優異的開發者們進行了簡單的採訪,初步粗略地瞭解了一下他們的開發過程和心得體會。今天,我們將通過同學們的完整結項報告,深入瞭解項目的開發技術細節,希望能夠幫助大家更好地瞭解 Apache SeaTunnel 項目的最新進展。 接下來是關於Apache SeaTunnel支持metalake開發這一項目的完整報告: 一、項目背景 目前,Apache SeaTunnel

大數據 , 開源 , seatunnel , 開發者

收藏 評論

海豚調度 - Apache DolphinScheduler 新增 gRPC 任務插件 | 開源之夏成果總結

今年的開源之夏活動已接近尾聲,Apache DolphinScheduler 社區的開發者在經過漫長的開發過程收穫了自己的成果,同時為 Apache DolphinScheduler 帶來了全新的任務插件 gRPC。 這項成果是由來自北京交通大學電氣工程專業的優秀同學趙海波帶來的,今天我們就來看看他是如何在本次活動中圓滿完成開發任務的吧! 個人介紹 趙海波,北京交通大學 電氣工程專業 導師

大數據 , 任務調度 , 開源 , seatunnel

收藏 評論

海豚調度 - 實戰乾貨:Apache DolphinScheduler 參數使用與優化總結

在使用 DolphinScheduler 進行數據調度開發的過程中,參數的靈活運用是提升任務複用性、動態化執行邏輯的關鍵。無論是日常跑批任務中的日期處理,還是複雜工作流中的上下游傳參,掌握參數的正確使用方式,能極大提高開發效率與任務健壯性。本文基於海豚調度3.1.9版本將系統梳理 DolphinScheduler 中各類參數的使用方法,涵蓋內置參數、衍生函數、日期計算、全局變量設置以及跨任務參數傳

dolphinscheduler , 大數據 , 開源 , 參數

收藏 評論

合合技術團隊 - 論文解讀 - 大型多模態模型中現實世界個性化基準測試

​一、簡要介紹 快速發展的大型多模態模型(LMMs)領域催生了多種具有顯著能力的模型。然而,現有的評估標準未能全面、客觀且準確地評估這些模型是否能滿足現實世界中人類的多樣化需求。為了解決這一問題,論文提出了多維度洞察(MDI)基準,該基準包含超過500張圖像,涵蓋了人類生活的六個常見場景。值得注意的是,MDI基準相比現有評估方法具有兩大優勢:(1)每張圖像都附有兩類問題:簡單問題用於評估模型對圖

大數據 , 算法 , 人工智能

收藏 評論

wx579efdd457bb0 - python ddt數據驅動

數據驅動的意義:在自動化測試當中,我們通常會將測試數據從測試代碼中抽離出來放在單獨的文件中,既能減少代碼量,也能降低代碼的維護成本,通過數據的改變從而驅動自動化測試的執行。接觸python自動化測試的第一個框架通常都是unittest,使用@ddt裝飾器來完成數據驅動,ddt意思就是 “Data-Driven Tests”。 項目目錄結構 使用pycharm新

大數據 , 數據倉庫 , 測試數據 , 自動化測試 , Json

收藏 評論