tag 大數據處理

標籤
貢獻17
79
10:32 AM · Nov 04 ,2025

@大數據處理 / 博客 RSS 訂閱

mob64ca1403528a - 高併發Linux內核參數優化

Linux 內核揭秘:大數據處理優化,高併發 I/O 的內核配置 在大數據處理場景中,高併發 I/O 往往是系統性能的瓶頸。本文將從內核配置角度,詳細介紹如何優化 Linux 內核以提升高併發 I/O 性能,幫助普通用户及運營人員理解並應用相關優化策略。 I/O 調度器選擇 I/O 調度器(I/O scheduler)負

大數據處理 , 高併發 , 後端開發 , Linux , Python

收藏 評論

代碼匠心 - 從零開始學Flink:數據輸出的終極指南

在實時數據處理的完整鏈路中,數據輸出(Sink)是最後一個關鍵環節,它負責將處理後的結果傳遞到外部系統供後續使用。Flink提供了豐富的數據輸出連接器,支持將數據寫入Kafka、Elasticsearch、文件系統、數據庫等各種目標系統。本文將深入探討Flink數據輸出的核心概念、配置方法和最佳實踐,並基於Flink 1.20.1構建一個完整的數據輸出案例。 一、Flink Sink概述 1. 什

大數據處理 , 大數據 , JAVA , flink , 後端

收藏 評論

代碼匠心 - 從零開始學Flink:數據轉換的藝術

在實時數據處理流程中,數據轉換(Transformation)是連接數據源與輸出結果的橋樑,也是體現計算邏輯的核心環節。Flink提供了豐富的數據轉換操作,讓開發者能夠靈活地對數據流進行各種處理和分析。本文將以Flink DataStream API為核心,帶你探索Flink數據轉換的精妙世界,並結合之前文章中的Kafka Source實現一個完整的數據處理流程。 一、數據轉換概覽 數據轉換是指將

大數據處理 , 大數據 , JAVA , flink , 後端

收藏 評論

代碼匠心 - Lambda架構:實時與批處理的完美融合

引言 在當今數據爆炸的時代,企業面臨着前所未有的數據處理挑戰——如何同時滿足海量歷史數據的批處理分析需求和實時數據的低延遲查詢需求?2014年,Storm的作者Nathan Marz提出了一種革命性的架構模式——Lambda架構,為解決這一矛盾提供了優雅的解決方案。 Lambda架構通過巧妙地將數據處理分解為批處理層(Batch Layer)、加速層(Speed Layer)和服務層(Servin

大數據處理 , 大數據 , hadoop , flink

收藏 評論

SelectDB技術團隊 - 實時分析、融合統一及雲原生,現代化數據倉庫未來發展必經之路|專訪飛輪科技 CEO 馬如悦

在國內擁有 2500+ 中大型企業用户,用户社羣聚集開發者超 3 萬人,活躍貢獻者數連續數月穩居全球大數據開源項目排行榜第一。毋庸置疑,Apache Doris 已成為全國數據庫和大數據領域最為活躍的開源項目之一。Apache Doris 歷經近十年的發展,為何還能持續保持競爭力和活力?其背後的核心推動力又是什麼? 在 QCon 全球軟件開發大會·北京站的現場,基於 Apache Doris 的商

大數據處理 , 創業 , 數據庫 , 雲原生 , 實時計算

收藏 評論

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

一、智能駕駛數據預處理的行業挑戰 隨着智能駕駛技術的逐級演進,數據驅動的模型訓練範式對數據預處理環節提出三大挑戰: 數據孤島化:需整合攝像頭、LiDAR、毫米波雷達、V2X通信等多模態數據,傳統ETL工具難以實現高效集成。 任務爆炸式增長:單輛測試車每日產生可達50TB 數據,需支持百萬甚至千萬級任務併發調度與彈性擴容。 開發運維一體化需求:要求數據流水線具備高可用性(99.99% SLA

大數據處理 , 大數據 , 自動駕駛 , 數據庫 , 人工智能

收藏 評論

企業任務調度平台 - 項目實施|Kafka集羣升級方案,我們踩過的不少坑

項目背景 我們團隊負責維護的 Kafka 集羣承載了公司大部分實時數據的收集與傳輸任務。然而,目前存在一些問題,嚴重影響了集羣的穩定性、用户體驗以及管理員的運維效率: 當前集羣版本較低,且低版本的 bug 頻繁出現,導致集羣穩定性受到威脅。例如,violet 集羣最近因觸發 bug 而出現不可用的情況。 多個集羣版本不一致,用户在使用時受到版本限制,管理員需要關注不同版本之間的差異,增加了問

集羣管理系統 , 大數據處理 , cloudera , hadoop , kafka

收藏 評論

阿里雲大數據AI - Post-Training on PAI (4):模型微調SFT、DPO、GRPO

引言 Post-Training(即模型後訓練)作為大模型落地的重要一環,能顯著優化模型性能,適配特定領域需求。相比於 Pre-Training(即模型預訓練),Post-Training 階段對計算資源和數據資源需求更小,更易迭代,因此備受推崇。 近期,我們將體系化地分享基於阿里雲人工智能平台 PAI 在強化學習、模型蒸餾、數據預處理、SFT等方向的技術實踐,旨在清晰地展現 PAI 在 Post

大數據處理 , 雲計算 , 算法 , 人工智能 , 模型

收藏 評論

墨染心語 - 吳仕櫓-大數據的智能處理和數據可視化實踐.pdf

快速體驗 打開 InsCode(快馬)平台 https://www.inscode.net 輸入如下內容:"使用Python實現大數據處理全流程,包括數據清洗、分析挖掘、可視化展示,整合分佈式存儲和雲平台能力,要求代碼簡潔高效" 點擊'項目生成'按鈕,等待項目生成完整後預覽效果 核心功能解析 Mi

雲平台 , 大數據處理 , 雲服務 , 前端開發 , Javascript

收藏 評論

企業任務調度平台 - Cloudera Hue實戰:如何高效利用這款數據查詢工具

Hue 的介紹 HUE 是一個開源的 Apache Hadoop UI 系統,早期由 Cloudera 開發,它是基於 Python Web 框架 Django 實現,後來貢獻給開源社區。它包括 3 個部分 hue ui,hue server, hue db。通過使用 Hue 我們可以通過瀏覽器方式操縱 Hadoop 集羣,查看修改 hdfs 的 文件,管理 hive 的元數據,運行 Sqoop,

hue , 集羣管理系統 , 大數據處理 , cloudera , hadoop

收藏 評論

weigeonlyyou - 部署 及 使用 etl crontab 和 etl engine

**如何部署及使用etl_crontab和etl_engine** 內容詳細,適合新人上手 1、前置條件 獲取到以下文件列表 code.bin (授權文件,必須) code.key (授權文件,必須) conf.cron (調度配置文件,使用etl_crontab必須) sys.properties (環境配置文件,使用

oracle , 大數據處理 , MySQL , etl , go

收藏 評論

DolphinDB - 時序數據庫DolphinDB文本數據加載教程

DolphinDB提供以下4個函數,將文本數據導入內存或數據庫: loadText: 將文本文件導入為內存表。 ploadText: 將文本文件並行導入為分區內存表。與loadText函數相比,速度更快。 loadTextEx: 將文本文件導入數據庫中,包括分佈式數據庫,本地磁盤數據庫或內存數據庫。 textChunkDS:將文本文件劃分為多個小數據源,再通過mr函數進行靈活的數據處理。 Dolp

大數據處理 , dolphindb , 時序數據庫 , 分佈式系統

收藏 評論

DolphinDB - DolphinDB定時作業教程

DolphinDB提供的定時作業(scheduled job)功能,可以讓系統在指定的時間以指定的頻率自動執行作業。當我們需要數據庫定時自動執行一些腳本進行計算分析(譬如每日休市後分鍾級的K線計算、每月統計報表生成)、數據庫管理(譬如數據庫備份、數據同步)、操作系統管理(譬如過期的日誌文件刪除)等工作時,可以用這個功能來實現。 定時作業用一個函數來表示,這給了作業定義極大的靈活性。凡是能用函數來表

大數據處理 , 定時任務 , dolphindb , 時序數據庫 , 分佈式系統

收藏 評論

SelectDB技術團隊 - 從 Clickhouse 到 Apache Doris:有贊業務場景下性能測試與遷移驗證

本文導讀: 當前,電商運營的主要痛點不僅來自多變的市場和客户需求,也受困於碎片化用户觸達等帶來的競爭與挑戰。為了深度挖掘用户價值、培養用户忠誠度、實現業績增長,有贊為商家搭建了全方位 OLAP 分析系統,提供實時與離線分析報表、智能營銷與人羣圈選等 SaaS 服務。本文將詳細介紹有贊從 Clickhouse 至 Apache Doris 的遷移規劃和性能對比測試實踐,分享如何基於 Apache D

大數據處理 , 數據庫 , 性能 , 數據分析 , apache

收藏 評論

阿里雲大數據AI - PAI-LangStudio x AI搜索開放平台 x ElasticSearch: 構建AI Search RAG全棧應用

本文詳細介紹瞭如何使用 PAI-LangStudio 和 Qwen3 構建基於AI搜索開放平台 x ElasticSearch 的 AI Search RAG 智能檢索應用。該應用通過使用 AI 搜索開放平台、ElasticSearch 全文檢索+向量檢索引擎的混合檢索技術配合阿里雲最新發布的 Qwen3 推理模型編排在一個 Agentic Workflow 中,為客户提供了業內領先的 AI Se

大數據處理 , 數據挖掘 , 搜索引擎 , 人工智能 , 深度學習

收藏 評論

軟件部長 - 還在手動算增長率?BI報表公式拓展3步實現動態指標

在BI系統中,報表的拓展公式計算是指通過自定義公式,對數據進行靈活加工,生成新的計算結果,以滿足複雜業務分析需求的功能。它突破了BI工具內置計算(如單個字段的分組小計、總計)的限制,允許用户直接基於業務邏輯定義計算規則,從而在報表中實現更深入、個性化的數據分析。 拓展公式計算的核心價值 彌補內置計算的不足 當基礎數據無法直接通過簡單統計得出業務所需指標時,通過公式定義複雜邏

大數據處理 , 數據可視化 , 數據分析 , 報表

收藏 評論

百度Geek説 - 維度爆炸背景下uv計算在Feed業務的高效實踐

導讀 本文介紹了優化大數據計算中多維度用户數統計的方法,通過數據打標的方式避免數據膨脹,提高性能並減少計算成本。首先分析了大數據計算中遇到的多維度數據統計問題,然後提出了利用數據打標進行處理的解決方案,詳細闡述了優化方案的實施步驟和效果。通過對比實驗結果,驗證了優化方案在提升性能和降低成本方面的顯著效果。最後,總結了優化方案的優勢和適用場景。 01 背景 Feed是百度App的一個重要業務組成部分

大數據處理 , 數據 , uv

收藏 評論

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

MiniMax-M1 模型是由 MiniMax 公司6月17日全新推出的大語言模型,使用hybrid Mixture-of-Experts (MoE) 架構,並使用了 lightning attention 機制。 MiniMax 公司稱其為世界上第一個開源的大規模混合架構的推理模型。 MiniMax-M1 模型原生支持 1 百萬個 token 的上下文長度, 並且 lightning atten

llm , 大數據處理 , 雲計算 , 人工智能 , 模型

收藏 評論

阿里雲大數據AI - 基於PAI-ChatLearn的GSPO強化學習實踐

引言 近期,阿里通義千問團隊創新性提出了 GSPO 算法,PAI-ChatLearn 框架第一時間支持並復現了GSPO的強化學習訓練過程,本文將介紹在 PAI 平台復現 GSPO 的最佳實踐。 GSPO 算法介紹 強化學習(Reinforcement Learning, RL)是拓展語言模型、增加其深度推理與問題求解能力的關鍵技術範式。為了持續拓展 RL,首要前提是確保穩定、魯棒的訓練過程。現有的

大數據處理 , 強化學習 , 最佳實踐 , 人工智能 , 模型

收藏 評論

SelectDB技術團隊 - 《SelectDB 新一代日誌存儲分析平台解決方案》白皮書重磅發佈|立即下載

隨着信息技術的飛速進步,企業面臨着前所未有的系統複雜性和數據挑戰。在此背景下,日誌數據成為了企業洞察系統內部狀態、監控網絡安全以及分析業務動態的寶貴資源,構建高效的日誌存儲與分析平台至關重要。 作為基於 Apache Doris 打造的現代化數據倉庫,SelectDB 不拘泥於傳統數倉的限制,針對日誌數據的特點引入了多項創新性技術,使用户可基於 SelectDB 構建開放、高性能、低成本、統一的日

大數據處理 , 日誌分析 , 數據倉庫 , 查詢優化 , 數據庫

收藏 評論

數據集成與治理 - 終於有人把數據傾斜講清楚了

我幹大數據這麼多年,見過太多人被數據傾斜折騰得沒脾氣—— 明明數據量不算特別大,任務卻死活跑不完; 明明集羣資源還夠,節點卻接二連三OOM。 其實不是你技術不行,而是沒把數據傾斜的底層邏輯搞明白。 今天這篇文章,我不整那些虛的,就用最實在的話、最真實的踩坑經歷,帶你從現象到本質,把數據傾斜的解決辦法摸透。 一、數據傾斜的本質是什麼 很多人一遇到數據傾斜,就覺得是“數據太多了”,其實完全錯了

大數據處理

收藏 評論

張飛的豬 - 數據倉庫(13)大數據數倉經典最值得閲讀書籍推薦

從事數倉工作,在工作學習過程也看了很多數據倉庫方面的數據,此處整理了數倉中經典的,或者值得閲讀的書籍,推薦給大家一下,希望能幫助到大家。建議收藏起來,後續有新的書籍清單會更新到這裏。 書籍推薦 《數據倉庫工具箱(第3版)——維度建模權威指南》 本書會介紹基本知識,然後逐個討論具體實例內容,最後進行綜合總體分析,在內容的結構方面很有特色。本書涉及的行業較多,但這些內容從不同角度體現了數據倉庫的

大數據處理 , 大數據 , etl , 書籍

收藏 評論

阿里雲大數據AI - 跨國數倉遷移背後的統一存儲格式創新-Append Delta Table

本系列文章將圍繞東南亞頭部科技集團的真實遷移歷程展開,逐步拆解BigQuery遷移至MaxCompute過程中的關鍵挑戰與技術創新。本篇為第一篇,跨國數倉遷移背後MaxCompute的統一存儲格式創新。 注:客户背景為東南亞頭部科技集團,文中用GoTerra表示 背景 當東南亞頭部科技集團GoTerra決定將其集團數據倉庫從BigQuery遷移至阿里雲MaxCompute時,這一決策背後折射出更深

大數據處理 , 大數據 , 存儲技術 , 數據遷移 , 人工智能

收藏 評論

鏡舟科技 - MPP 架構解析:原理、核心優勢與對比指南

一、引言:大數據時代的數據處理挑戰 全球數據量正以指數級增長。據 Statista 統計,2010 年全球數據量僅 2ZB,2025 年預計達 175ZB。企業面臨的核心挑戰已從“如何存儲數據”轉向“如何快速分析數據”。傳統架構在處理海量數據時暴露明顯瓶頸:單點資源爭用導致查詢延遲激增,垂直擴展成本高昂(如某金融機構單台服務器擴容費用超百萬美元),且難以支持實時分析需求。 MPP 架構的歷史演進

分佈式計算 , 大數據處理 , 架構 , 數據分析 , flink

收藏 評論