tag spark

標籤
貢獻95
168
05:15 PM · Oct 25 ,2025

@spark / 博客 RSS 訂閱

藍夢之翼 - Spark Streaming概述

一、定義 Spark Streaming 是 Spark 的流式數據處理模塊。Spark Streaming 支持的數據輸入源有很多,例如:Kafka、Flume、Twitter、ZeroMQ 和簡單的 TCP 套接字等。 二、DStream 和 Structured Streaming Spark Streaming 使用離散化流(DStream)作為

spark , Streaming , 大數據 , 數據 , API

收藏 評論

mob64ca140ce312 - 2分鐘讀懂Hadoop和Spark的異同

從數據處理流程看 Hadoop 與 Spark:批處理、流處理的實現差異 Hadoop 和 Spark 都是大數據處理框架的核心技術,但它們在數據處理流程(包括批處理和流處理)的實現上存在顯著差異。下面我將從數據處理流程的角度(數據輸入、處理引擎、數據輸出)逐步分析這些差異,幫助您理解各自的優勢和適用場景。回答基於真實技術原理,確保可靠。 1

spark , 大數據 , 數據 , hadoop , 前端開發 , Javascript

收藏 評論

阿里雲大數據AI技術 - 雲棲實錄 | 洋錢罐基於 EMR Serverless 產品構建全球一體化數字金融平台

演講人:宋曉峯洋錢罐大數據運維總監 十年破壁:從數據築基到智能生態的全鏈路實踐 一、數據築基——自建大數據集羣的攻堅與突破 背景介紹 瓴嶽科技(Fintopia)是以大數據和人工智能為基礎的數字科技集團,為全球用户提供卓越的金融體驗。2015年成立至今,瓴嶽科技始終聚焦消費金融,業務遍佈中國大陸、東南亞、拉丁美洲和非洲等;集團旗下擁有洋錢罐、Easycas

spark , 大數據 , starrocks

收藏 評論

vivo互聯網技術 - Spark on K8s 在vivo大數據平台的混部實戰

作者:vivo 互聯網大數據團隊- Qin Yehai 在離線混部可以提高整體的資源利用率,不過離線Spark任務部署到混部容器集羣需要做一定的改造,本文將從在離線混部中的離線任務的角度,講述離線任務是如何進行容器化、平台上的離線任務如何平滑地提交到混部集羣、離線任務在混部集羣中如何調度的完整實現以及過程中的問題解決。 一、在離線業務差異 互聯網數據業務服務一般可以分為在線服務和離線任務兩

spark , 容器 , 大數據

收藏 評論

mob64ca1402665b - Spark SQL 優化筆記

1. 數據存儲與格式優化 選擇合適的文件格式:推薦使用 Parquet、ORC 等列式存儲格式,壓縮率高,查詢快。 分區存儲:根據業務字段(如日期、地區等)合理分區,減少掃描數據量。 避免小文件:合併小文件,減少文件系統開銷,提高並行度。 2. SQL 查詢優化 謂詞下推(Predic

spark , 大數據 , SQL

收藏 評論

mob64ca140c3859 - 15個參考文獻spark

開頭先跟小夥伴們講述一些DJ的兩大類分,一大類是媒體DJ(這個就不多説啦)、第二大類是夜店DJ,也是要介紹的重點。夜店DJ,英文:Night of Shop DJ 或者叫 Disco Music Jockey,早在一次世界大戰之前就已經有DISCO存在,不過那時候沒有現在這麼瘋狂,直到1972年"Cherry Lips"樂隊的一首"Play the Fu

spark , 大數據 , 15個參考文獻spark , 音頻格式 , 視頻編輯 , 音樂怎麼生成html

收藏 評論

雲端創新夢想家 - 人工智能+智能製造--中國製造未來方向_人工智能製造

引言 人工智能(AI)正在全球範圍內迅速發展,並深刻影響各行各業。尤其在製造業,AI技術的應用已成為提升生產力、優化供應鏈、減少成本和提升產品質量的重要工具。智能製造是工業4.0的核心,而人工智能無疑是這一進程的核心驅動力。AI的引入不僅僅是為了實現自動化,更在於通過數據驅動的智能決策來提升生產效率和響應市場需求的能力。 本文將探討人工智能在

機器學習 , spark , 大數據 , 數據 , hadoop , 人工智能

收藏 評論

IT獨行俠客 - 常用數據清洗方法大盤點_51CTO博客

大數據清洗:從“髒數據”到“黃金礦”的魔法變身術 關鍵詞:數據清洗、髒數據、ETL、數據質量、大數據優化、特徵工程、Pandas實戰 摘要:大數據時代,“數據是黃金”的説法早已深入人心,但剛從業務系統、傳感器或用户行為中採集到的數據,往往像剛從河裏撈上來的沙子——混着泥土、石頭、碎玻璃,甚至還有爛葉子。要想從這些“髒

spark , 髒數據 , 大數據 , 數據清洗 , 數據 , AI

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用

(centerJava 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用/center) 引言 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!隨着衞星遙感技術的飛速發展,我們得以從 “上帝視角” 俯瞰地球,海量遙感圖像數據如同寶庫,藴藏着土地利用的關鍵信息。但面對這 “數據洪流”,傳統分類方法如同在茫茫大海撈

機器學習 , spark , hdfs , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 遙感圖像

收藏 評論

阿里雲大數據AI - 最佳實踐 | 在 EMR Serverless Spark 中實現 Doris 讀寫操作

背景信息 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 產品。它為企業提供了一站式的數據平台服務,包括任務開發、調試、調度和運維等,極大地簡化了數據處理和模型訓練的全流程。同時,它100%兼容開源 Spark 生態,能夠無縫集成到客户現有的數據平台。使用 EMR Serverless Spark,企業可以更專注於數據處理分析和模型訓練調優,提高

spark , 大數據 , 雲原生 , serverless

收藏 評論

代碼匠人之心 - spark 任務中如何連接高可用hive server

• /dependency• • dependency • groupIdmysql/groupId • artifactIdmysql-connector-java/artifactId • version5.1.38/version • /dependency • • depende

spark , 大數據 , maven , xml , apache

收藏 評論

雲端小悟空 - 訓練特徵索引

之前介紹的StringIndexer是針對單個類別型特徵進行轉換,倘若所有特徵都已經被組織在一個向量中 ,又想對其中某些單個分量進行處理時,Spark ML提供了VectorIndexer類來解決向量數據集中的類別 性特徵轉換。通過為其提供maxCategories超參數,它可以自動識別哪些特徵是類別型的,並且將原始 值轉換為類別索引。

spark , 數據集 , 大數據 , 訓練特徵索引 , 數據倉庫 , 人工智能

收藏 評論

青雲交技術圈 - Java 大視界 --Java 大數據在智能醫療遠程手術機器人控制與數據傳輸中的技術支持

(centerJava 大視界 --Java 大數據在智能醫療遠程手術機器人控制與數據傳輸中的技術支持/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!當手術台從醫院的無影燈下延伸至雲端,Java 大數據又將如何以代碼為刃,跨越時空守護生命?讓我們一同走進《Java 大視界 --Java 大數據在智能醫療遠程手術機器

spark , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 機器人 , JAVA , 智能醫療

收藏 評論

mob64ca14116c53 - 開箱!NVIDIA DGX A100(80G)_嗶哩嗶哩

AI創新的火花:NVIDIA DGX Spark開箱與深度解析 引言:當桌面迎來PetaFLOP級AI算力 長久以來,擁有數據中心級的AI算力似乎是少數頂尖實驗室和大型企業的專屬。然而,NVIDIA通過一款顛覆性的產品,徹底改變了這一格局。今天,我們懷着無比激動的心情,為大家帶來NVIDIA DGX Spark的獨家開箱評測。這款被稱

spark , 大數據 , nvidia , 人工智能 , DGX , Css , 前端開發 , HTML

收藏 評論

百度Geek説 - 搜索數據建設系列之數據架構重構

導讀 主要概述百度搜索業務數據建設的創新實踐,重點圍繞寬表模型設計、計算引擎優化和新一代業務服務交付模式(圖靈3.0開發模式)三大方向,解決了傳統數倉在搜索場景下面臨的諸多挑戰,實現了搜索數據建設的高效、穩定、低成本;為百度搜索業務敏捷迭代奠定夯實基礎。 名詞解釋 TDS(Turing Data Studio): 是基於圖靈(百度內部數據分析平台)的數據建設解決方案,提供 數據開發、數倉管理、監控

spark , 數據庫

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據在智能教育虛擬學習環境構建與用户體驗優化中的應用

(centerJava 大視界 -- Java 大數據在智能教育虛擬學習環境構建與用户體驗優化中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在技術的浩瀚星河中,我們一路相伴,見證了 Java 大數據在各個領域的璀璨綻放。 如今,教育領域正經歷着前所未有的數字化浪潮,智能教育虛擬學習環境成為教育未來發展

spark , Java 大數據 , 大數據 , yyds乾貨盤點 , 數據 , JAVA

收藏 評論

泰克教育 - 泰漲知識 | RDD編程

一、RDD操作 1、創建操作 ①從文件創建 文件的一行對應RDD的一個元素: a.從本地文件創建 //格式:sc.textFile("file://本地文件絕對路徑") valrdd =sc.textFile("file

spark , 大數據 , hive , hadoop , Scala

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據生態圈中的組件

  大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。   視頻講解如下: https://www.bilibili.com/video/BV1UE421N7RC/?aid=1655938699

spark , 大數據 , hadoop , flink , kafka

收藏 評論

mob64ca14031c97 - cdp對應的spark客户端 spark core

目錄 一、Spark Core 1、什麼是Spark?特點 二、安裝和部署Spark、Spark 的 HA 1、spark體系結構 2、spark的搭建 3、Spark的 HA 三、執行Spark的任務

spark , 大數據 , hadoop , Scala , cdp對應的spark客户端

收藏 評論

雲端創新者 - SPARKLIKE官網

本博文的主要內容:   1、HashShuffle徹底解密   2、ShufflePluggable解密   3、SortedShuffle解密   4、Shuffle性能優化 一:到底什麼是Shuffle?   Shuffle中文翻譯為“洗牌”,需要Shuffle的關鍵性原因是某種具有共同特徵的數據需要最終匯聚到一個計算節點上進行計算

sed , spark , 大數據 , 數據 , SPARKLIKE官網

收藏 評論

青雲交技術圈 - Java 大視界 -- 基於 Java 的大數據可視化在城市地下管網管理與風險預警中的應用

(centerJava 大視界 -- 基於 Java 的大數據可視化在城市地下管網管理與風險預警中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!凌晨三點的深圳福田區,一場突如其來的暴雨讓城市管網承受巨大壓力。Java 驅動的智慧管網系統正以毫秒級頻率分析着 1.2 萬路傳感器數據,當系統監測到某路段污水管道

spark , 大數據 , yyds乾貨盤點 , 數據 , JAVA , .net

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在生物信息學基因功能預測中的優化與應用

(centerJava 大視界 -- Java 大數據機器學習模型在生物信息學基因功能預測中的優化與應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!而今天,我們將踏入一個全新的領域 —— 生物信息學,在這裏,Java 大數據與機器學習模型將碰撞出怎樣的火花,又將如何助力人類破解基因的奧秘?讓我們帶着滿滿的好奇,

機器學習 , spark , 基因功能 , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , JAVA

收藏 評論

mob64ca1416f1ef - Triton inference server系列(0)——相關資料整理

Triton Inference Server 架構與前後處理方案梳理 文章目錄 Triton Inference Server 架構與前後處理方案梳理 0 引言 1 client方案--自己在client端增加前處理和後處理

spark , 共享內存 , 大數據 , analyzer , 架構 , c++

收藏 評論

AI領域佈道師 - spark2支持hint嗎

目錄 條件 安裝 scala 發到虛擬機上,解壓 配置環境變量 配置SCALA_HOME,然後在PATH變量後加上`:$SCALA_HOME/bin` 驗證 spark 下載 解壓 配置環境變量

spark , 大數據 , hadoop , spark2支持hint嗎

收藏 評論