tag 大數據處理

標籤
貢獻17
81
10:32 AM · Nov 04 ,2025

@大數據處理 / 博客 RSS 訂閱

Protonbase - 數據驅動業務創新之路:ProtonBase 賦能某電商運營參謀系統

導讀:本案例中的客户作為一家專注於服務跨境電商的科技公司,通過其核心產品 XX 瀏覽器,為全球數百萬個店鋪提供服務。該瀏覽器不僅是一款瀏覽器,更是一個集成了多種運營工具的平台,幫助用户高效管理店鋪、分析數據、優化運營策略。 本文將分享該客户在應對這些挑戰過程中,藉助 ProtonBase 優化業務流程、提升數據處理能力的實踐經驗。本文結構如下: 業務場景:海量運營數據實時分析,為賣家提供智能化

大數據處理 , 數據倉庫 , 數據庫 , 數據分析

收藏 評論

數據集成與治理 - 流處理 or 批處理?大數據架構還需要流批一體嗎?

流處理(​處理實時數據流​)和批處理(​處理歷史數據集​),曾經是支撐我們實時監控和深度分析的兩大支柱。 但日子久了,​問題也來了:​它們數據不通、代碼不通、資源不通。 為了同時滿足“秒級響應”和“深度分析”,不得不同時維護兩套系統、寫兩套代碼、存兩份數據。成本高、效率低,還容易出錯。 如今,業務對數據的要求越來越高: 報表要從“T+1”變成“分鐘級”, 實時數據要立刻用於模型訓練,

大數據處理

收藏 評論

代碼匠心 - 從零開始學Flink:流批一體的執行模式

在大數據處理領域,批處理和流處理曾經被視為兩種截然不同的範式。然而,隨着Apache Flink的出現,這種界限正在逐漸模糊。Flink的一個核心特性是其批流一體的架構設計,允許用户使用統一的API和執行引擎處理有界數據(批處理)和無界數據(流處理)。本文將深入探討Flink的執行模式(Execution Mode),特別是在Flink 1.20.1版本中對批處理和流處理模式的支持和優化。 一、F

大數據處理 , 大數據 , JAVA , flink

收藏 評論

ApacheFlink - 理想汽車基於 Hologres + Flink 構建萬億級車聯網信號實時分析平台

作者:海博 理想汽車高級大數據工程師、賈天福 理想汽車高級大數據工程師 引言:智能汽車時代的數據挑戰 隨着電動車和智能汽車的快速普及,車聯網信號數據呈現爆發式增長。理想汽車作為國內領先的智能電動汽車企業,已擁有超過100萬輛在網車輛,每輛車每秒上報多達上萬個信號(如車速、胎壓、温度、電池狀態等),整體數據規模達到萬億級別。這些數據不僅體量巨大,而且對實時性要求極高——端到端延遲需控制在2秒以內,至

大數據處理 , flink , 實時計算

收藏 評論

阿里雲大數據AI - 一體系數據平台的進化:基於阿里雲 EMR Serverless Spark的持續演進

作者:億緹希技術(上海)有限公司 馬博、王建春 一、背景介紹 一體系汽配供應鏈平台(以下簡稱一體系),專注提供高品質發動機、變速箱、底盤技術零部件,融匯優質實體資源和創新互聯網科技,為上游品牌商提供高效的下沉渠道,為下游零售商帶來可信賴的產品和服務,讓採購更便捷可靠,實現行業數字化轉型。 隨着企業對實時數據分析、AI 能力和大規模數據處理的需求不斷增長,平台數據量龐大且持續增長、數據呈現半結構

spark , 大數據處理 , 雲計算 , 數據庫 , serverless

收藏 評論

海豚調度 - DolphinScheduler 如何高效調度 AnalyticDB on Spark 作業?

DolphinScheduler是一個分佈式易擴展的可視化DAG工作流任務調度開源系統,能高效地執行和管理大數據流程。用户可以在DolphinScheduler Web界面輕鬆創建、編輯和調度雲原生數據倉庫 AnalyticDB MySQL 版的Spark作業。 前提條件 AnalyticDB for MySQL集羣的產品系列為企業版、基礎版或湖倉版。 AnalyticDB for MySQ

spark , 大數據處理 , dolphinscheduler , 大數據 , 開源

收藏 評論

企業任務調度平台 - CDH集羣管理:如何用技術簡化複雜性?

大數據集羣搭建及管理 問題:需要搭建1000 台服務器的集羣,其中集羣包含Hive、Hbase、Flume、Kafka、Spark 等集羣,需要多長時間搭建好? 思考: 搭建四台集羣與搭建1000 台集羣的區別?比較相似。 解決問題:(以搭建HDFS為例) 集羣環境規劃 首先我們需要進行集羣基礎環境的規劃:比如每台節點的網絡 ip 規劃,節點時間同步,每台節點的名稱,每台節點安裝 jdk,節點之間

集羣管理系統 , 大數據處理 , cloudera , hadoop , 集羣

收藏 評論

代碼匠心 - 從零開始學Flink:揭開實時計算的神秘面紗

一、為什麼需要Flink? 當你在電商平台秒殺商品時,1毫秒的延遲可能導致交易失敗;當自動駕駛汽車遇到障礙物時,10毫秒的計算延遲可能釀成事故。這些場景揭示了一個殘酷事實:數據的價值隨時間呈指數級衰減。 傳統批處理(如Hadoop)像老式火車,必須等所有乘客(數據)到齊才能發車;而流處理(如Flink)如同磁懸浮列車,每個乘客(數據)上車即刻出發。Flink的誕生,讓數據從"考古材料"變為"新鮮血

大數據處理 , 大數據 , JAVA , flink , 後端

收藏 評論

nahandeyagao_dv9dhp - 閒魚API接口:商品詳情的實時同步

在當今互聯網時代,二手交易市場如同一片充滿生機的藍海,吸引着無數弄潮兒。在這片藍海中,閒魚平台以其獨特的魅力,成為了廣大用户的交易首選。為了讓更多開發者和企業充分利用這一平台資源,閒魚推出了商品詳情API接口,為廣大開發者開闢了一條獲取商品信息的綠色通道。 閒魚商品詳情API接口,作為閒魚平台對外開放的重要服務之一,其主要作用是讓開發者能夠通過編程方式,輕鬆獲取平台上商品的具體信息。該接口涵蓋了商

大數據處理 , 淘寶開放平台 , 大數據 , API , 數據庫

收藏 評論

阿里雲大數據AI - Post-Training on PAI (2):Ray on PAI,雲上一鍵提交強化學習

1. 前言 1.1 Ray Ray是一個開源的分佈式計算框架,集成了多個AI庫,擁有豐富的生態系統,包括Ray Tune(超參數調優)、Ray RLlib(強化學習)、Ray Serve(模型部署)、RaySGD 的分佈式運行環境,提供了全面的AI解決方案,使得AI並行訓練更容易和高效。 OpenAI 聲明使用了 Ray 作為ChatGPT 大模型訓練的底層平台,參考 ​​How Does Ray

大數據處理 , 開發 , 標註 , 人工智能 , 模型

收藏 評論