tag spark

標籤
貢獻95
162
05:15 PM · Oct 25 ,2025

@spark / 博客 RSS 訂閱

註銷 - Spark 集羣和 Scala 編程語言的關係

Spark 集羣是基於Apache Spark的分佈式計算環境,用於處理大規模數據集的計算任務。Apache Spark是一個開源的、快速而通用的集羣計算系統,提供了高級的數據處理接口,包括Spark SQL、Spark Streaming、MLlib(機器學習庫)和GraphX(圖計算庫)。Spark的一個主要特點是能夠在內存中進行數據處理,從而大大加速計算速度。 Scala 編程語言是Spar

spark , Scala

收藏 評論

太可研究所 - 我為什麼不看好 Spark 背後的編程語言——Scala

回想起第一次接觸 Scala,最早要追溯到 2013 年,一晃眼已是十年的時間。這十年間發生了很多事情,有不少用 Scala 寫的項目火了,也有很多新編程語言火了,就連 Java 這棵老樹也發了新芽,更新了十幾個版本。 不過有一説一,Scala 這門語言還是相當小眾的,市場上除了 Spark 也基本沒有 Scala 的需求。作為為數不多一直在跟 Scala 打交道的人,對這門語言還是很有發言權的。

spark , Scala , 數據庫

收藏 評論

趙渝強老師 - 【趙渝強老師】Scala編程語言

Scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平台(Java虛擬機)之上,併兼容現有的Java程序。因此,要安裝Scala環境之前,首先需要安裝Java的JDK。學習Scala編程語言,將為後續學習Spark和Flink奠定基礎。視頻講解如下: https://www.bilibili.com/video/BV1wdUWYe

spark , 大數據 , Scala , flink

收藏 評論

泊浮目 - 悶聲發大財,Spark&HiveSQL神器大更新

本文在綠泡泡“狗哥瑣話”首發於2025.9.23 -關注不走丟。 大家好這裏是狗哥。在23年11月,我向大家安利我自己寫的SparkHiveSQL VsCode插件,當時主要是這麼幾個功能: 語法檢測功能 format 重構 代碼補全 發現引用 時隔兩年,這個插件其實一直在迭代中。接下來我就向大家介紹一下後續迭代的新功能。 最值得一提的功能:SparkSQL語義檢測 眾所周知,在使用

spark , hive , SQL

收藏 評論

阿里雲大數據AI - 從“開源開放”走向“高效智能”:阿里雲 EMR 年度重磅發佈

EMR發展歷程回顧 自2016年首次發佈以來,阿里雲EMR始終以開源生態為基石,逐步構建起覆蓋Hadoop、Hive、Spark、StarRocks等主流開源計算和存儲引擎的公有云大數據平台。九年間,EMR產品技術不僅支撐了阿里巴巴集團內部如淘寶閃購、A+等核心業務的海量數據處理需求,也服務了互聯網、金融、零售、製造等眾多行業的公有云客户。從最初的開源組件版本和服務管控,到如今面向湖倉一體、實時智

spark , 阿里雲 , starrocks

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據在智能農業温室環境調控與作物生長模型構建中的應用

(centerJava 大視界 -- Java 大數據在智能農業温室環境調控與作物生長模型構建中的應用/center) 引言 親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在技術發展的漫漫長路上,我們一同見證了 Java 大數據在諸多領域掀起的創新風暴。 如今,農業領域正站在智能化變革的關鍵節點,智能農業温室作為這場變革的前沿陣地,承載着

spark , 大數據 , yyds乾貨盤點 , 數據 , 智能農業 , Java大數據 , JAVA

收藏 評論

mob64ca14116c53 - QMS-雲質-企業數字化轉型-企業質量數字化案例_質量數碼化

一、數字化轉型背景下的質量管理挑戰 隨着工業4.0時代的深入推進,製造企業面臨的質量管理環境日益複雜。傳統依賴紙質記錄與Excel表格的管理模式存在顯著缺陷:數據完整性不足、人為錯誤頻發、信息孤島林立。據統計,一家中等規模的製造企業通常需要管理超過1萬種原材料,若持續採用人工記錄方式,不僅效率低下,更難以保障數據的準確性與可追溯性。例如,質量信息分散在研發、生產

spark , 大數據 , 數據 , 項目經理 , 質量管理

收藏 評論

mob64ca12ddcacc - spark saveAsTable 數據源拉了兩次數據

在使用 Apache Spark 進行數據處理時,我遇到了一個棘手的問題:使用 saveAsTable 方法將數據保存到 Hive 表時,數據源被拉取了兩次。這種情況不僅影響了處理效率,也浪費了計算資源。為了更好地記錄解決這個問題的過程,我着重從環境預檢、部署架構、安裝過程、依賴管理、配置調優和最佳實踐六個方面進行整理。 環境預檢 在進行解決方案之前,首先要確保我們的環境是配置正

spark , hive , aigc , apache

收藏 評論

laokugonggao - spark中的共享變量(廣播變量和累加器) - macy

1 核心概念:為什麼需要它們? 在spark程序中,當一個傳遞給Spark操作(例如map和reduce)的函數在遠程節點上面運行時,Spark操作實際上操作的是這個函數所用變量的一個獨立副本。這些變量會被複制到每台機器上,並且這些變量在遠程機器上的所有更新都不會傳遞迴驅動程序。通常跨任務的讀寫變量是低效的,但是,Spark還是為兩種常見的使用模式提供了兩種有限的共享變量:

spark , List , 大數據 , 數據

收藏 評論

青雲交技術圈 - Java 大視界 -- 基於 Java 的大數據實時數據處理在工業互聯網設備協同製造中的應用與挑戰

(centerJava 大視界 -- 基於 Java 的大數據實時數據處理在工業互聯網設備協同製造中的應用與挑戰/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!技術探索永無止境!在《大數據新視界》和《 Java 大視界》專欄的陪伴下,我們一路見證了 Java 大數據在多個領域的華麗綻放。從智能教育虛擬學習環境的深度

spark , 大數據 , yyds乾貨盤點 , 數據 , JAVA

收藏 評論

百度Geek説 - 百度大數據成本治理實踐

導讀 本文概述了在業務高速發展和降本增效的背景下百度MEG(移動生態事業羣組)大數據成本治理實踐方案,主要包含當前業務面臨的主要問題、計算數據成本治理優化方案、存儲數據成本治理優化方案、數據成本治理成果以及未來治理方向的一個思路探討,為業界提供可參考的治理經驗。 01 背景 隨着百度各業務及產品的快速發展,海量的離線數據成本在持續地增長。在此背景下,通過大數據治理技術來幫助業務降本增效,實現業務的

spark , hadoop

收藏 評論