tag spark

標籤
貢獻95
166
05:15 PM · Oct 25 ,2025

@spark / 博客 RSS 訂閱

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在自然語言處理中的對抗訓練與魯棒性提升

(centerJava 大視界 -- Java 大數據機器學習模型在自然語言處理中的對抗訓練與魯棒性提升/center) 引言 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!自然語言處理(NLP)作為人工智能領域的核心技術,在智能客服、智能寫作、信息檢索等場景中廣泛應用。然而,隨着應用的深入,對抗攻擊帶來的威脅日益凸顯。惡意攻擊者通過精心

機器學習 , spark , 魯棒性 , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , JAVA

收藏 評論

百度Geek説 - 百度大數據成本治理實踐

導讀 本文概述了在業務高速發展和降本增效的背景下百度MEG(移動生態事業羣組)大數據成本治理實踐方案,主要包含當前業務面臨的主要問題、計算數據成本治理優化方案、存儲數據成本治理優化方案、數據成本治理成果以及未來治理方向的一個思路探討,為業界提供可參考的治理經驗。 01 背景 隨着百度各業務及產品的快速發展,海量的離線數據成本在持續地增長。在此背景下,通過大數據治理技術來幫助業務降本增效,實現業務的

spark , hadoop

收藏 評論

mob64ca140caeb2 - 排名前十的倉庫管理系統大盤點(真實測評)!_倉儲管理系統

WMS倉庫管理系統十大排名推薦:企業數字化倉儲首選解決方案指南 一、WMS系統市場概況與選型指南 在數字經濟時代,倉庫管理系統(WMS)已成為企業供應鏈數字化轉型的核心基礎設施。根據IDC最新調研報告顯示,2024年中國WMS市場規模突破200億元,年增長率達25%,其中SaaS化部署模式佔比超過60%。 企業在選擇WMS系統時,需要重點關注系統的智能化程度、行業適配

spark , 大數據 , 市場份額 , 倉庫管理系統 , 解決方案

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據主從架構的單點故障

  大數據體系架構中的核心組件都是主從架構,即:存在一個主節點和多個從節點,從而組成一個分佈式環境。下圖為展示了大數據體系中主從架構的相關組件。   視頻講解如下: https://www.bilibili.com/video/BV1vz421z72U/?aid=1355982530c...   從上圖可以看出大數據的核心組件都是一種主從架構,而只要是主從架構就存在單點故障的問

spark , 大數據 , hadoop , zookeeper , flink

收藏 評論

墨韻流香 - 人臉素描數據集

OpenCV實時素描效果:用代碼將攝像頭畫面轉化為藝術素描 實現原理與可視化流程 運行前請安裝OpenCV:`pip install opencv-python`,如攝像頭無法打開請嘗試調整`VideoCapture(0)`或`VideoCapture(1)`參數。 素描效果的核心思想是模擬藝術家繪製素描時的視

spark , 大數據 , 人工智能 , 計算機視覺 , opencv , ide , Python

收藏 評論

mob64ca1400bfa8 - Doris能否替代spark

目錄 0、準備 1、Spark 讀寫 Doris 1.1 準備 Spark 環境 1.2 使用 Spark Doris Connector 1.2.1 SQL 方式讀寫數據 1.2.2 DataFrame 方式讀寫數據(batch) 1.2.3 RDD 方式讀

spark , Doris能否替代spark , 大數據 , Scala

收藏 評論

mob64ca140ac564 - spark parquet 布隆過濾器

數學之美中23章介紹的布隆過濾器(Bloom filter),以下是一些算法的實現及應用 1.算法應用 在如那件設計中有個最基本的功能是判斷某個元素是否在集合當中,比如爬蟲中驗證一個url是否被收錄過,如果用普通的hash來判斷那需要的內存容量是驚人的。布隆過濾器的作用就是能夠降低內存用量,他只需要hash表的1/8到1/4就能夠解決問題。 3.算法實現

spark , spark parquet 布隆過濾器 , 大數據 , 字符串 , 主函數 , 布隆過濾器

收藏 評論

laokugonggao - spark sql 不包含元素

SQL操作全集 下列語句部分是Mssql語句,不可以在access中使用。 SQL分類: DDL—數據定義語言(CREATE,ALTER,DROP,DECLARE) DML—數據操縱語言(SELECT,DELETE,UPDATE,INSERT) DCL—數據控制語言(GRANT,REVOK

spark , 表名 , spark sql 不包含元素 , 大數據 , 數據庫 , SQL

收藏 評論

數據解碼者 - spark 被壓

因特殊業務場景,如大促、秒殺活動與突發熱點事情等業務流量在短時間內劇增,形成巨大的流量毛刺,數據流入的速度遠高於數據處理的速度,對流處理系統構成巨大的負載壓力,如果不能正確處理,可能導致集羣資源耗盡最終集羣崩潰,因此有效的反壓機制(backpressure)對保障流處理系統的穩定至關重要。 Storm和SparkStreaming都提供了反

spark , Streaming , spark 被壓 , 大數據 , 數據 , 執行過程

收藏 評論

阿里雲大數據AI - Fusion 引擎賦能:七貓如何使用阿里雲 EMR Serverless Spark 實現數倉加速

一、背景介紹 七貓公司介紹及業務規模 七貓是一家深耕文化娛樂行業的互聯網企業,總部坐落在上海市前灘中心。七貓旗下原創文學網站七貓中文網於2017年5月正式上線,專注為原創作者提供創作指導、版權運營等全方位一體化服務。七貓拳頭產品七貓免費小説App於2018年8月正式上線,專注為用户提供正版、免費、優質的網絡文學內容閲讀服務。現平台用户超6億,規模位列數字閲讀行業前列。 原有大數據

spark , 阿里雲

收藏 評論

journey - 數據模擬1w分區,每個分區2條數據

#!/bin/bash # 生成修正後的SQL文件 cat hive2dlc_single_partition1.sql 'EOF' SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions=10000;

spark

收藏 評論

journey - Spark RDD Java

1、Tranform(轉換算子) map package com.journey.core.rdd.transform; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org

spark , rdd , transform , JAVA , action

收藏 評論

mob64ca140a8e67 - spark block 大小配置

1.RDD 彈性分佈式數據集: RDD是由多個partition組成 最小單位是partition:與讀取的block是一一對應的. 有多少個block就有多少個partion. 算子就是函數:作用再rdd的partition上的. 對彈性的理解:某個RDD損壞了,可以進行恢復.他們直接有依賴關係 分區器是作用在kv格式RDD上很難理解 partition提供數據

spark , 大數據 , 數據 , hadoop , spark block 大小配置 , mapreduce

收藏 評論

StarRocks - 【活動回顧】StarRocks Singapore Meetup #2 @Shopee

3 月 13 日,StarRocks 社區在新加坡成功舉辦了第二場 Meetup 活動,主題為“Empowering Customer-Facing Analytics”。本次活動在 Shopee 新加坡辦公室舉行,吸引了來自 Shopee、Grab 和 Pinterest 的專家講師以及 50 多位參會者。大家圍繞電商、BI 報表和廣告場景中的數據分析挑戰展開了深入探討,並分享瞭如何利用 Sta

spark , 數據分析 , 物化視圖 , olap

收藏 評論

mob64ca140c75c7 - spark udf 樣例

目錄 前言 SparkConf類的構造方法 Spark配置項的存儲 設置配置項 直接用Set類方法設置 通過系統屬性加載 克隆SparkConf 獲取配置項 校驗配置項 總結 前言 從本文開始,討論Spark基礎支撐

spark , 大數據 , 類方法 , spark udf 樣例 , 配置項 , 構造方法

收藏 評論

趙渝強老師 - 【趙渝強老師】Spark RDD的緩存機制

Spark RDD通過persist方法或cache方法可以將計算結果的緩存,但是並不是這兩個方法被調用時立即緩存,而是觸發後面的action時,該RDD才會被緩存在計算節點的內存中並供後面重用。下面是persist方法或cache方法的函數定義: def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def cache(): t

spark , 大數據

收藏 評論

mob64ca12f062df - sparksql的saveAsTable 後創建了表但是沒有數據

在使用Spark SQL時,很多用户可能會遇到“使用saveAsTable創建了表但沒有數據”的問題,這種情況可能由於多種原因引起。在本文中,我將詳細介紹如何解決此問題,包括環境準備、集成步驟、配置詳解、實戰應用、性能優化和生態擴展等方面,以確保大家都能順利使用Spark SQL來保存數據到表中。 環境準備 在解決此問題之前,我們需要為Spark SQL設置適合的開發環境。以下是

spark , 技術棧 , hive , aigc

收藏 評論

百度Geek説 - Iceberg在圖靈落地應用

導讀 百度MEG上一代大數據產品存在平台分散、易用性差等問題,導致開發效率低下、學習成本高,業務需求響應遲緩。為了解決這些問題,百度MEG內部開發了圖靈3.0生態系統,包括Turing Data Engine(TDE)計算存儲引擎、Turing Data Studio(TDS)數據開發治理平台和Turing Data Analysis(TDA)可視化BI產品。依託圖靈3.0生態,我們引入了數據湖表

spark , 數據倉庫 , flink , iceberg , 數據湖

收藏 評論

deanyuancn - Spark 基礎——RDD 算子

RDD算子介紹 RDD(彈性分佈式數據集)是Spark的核心數據結構,代表不可變、分區化的數據集合。RDD算子分為兩類: 轉換算子(Transformations):惰性操作,生成新RDD $$ \text{新RDD} = \text{原RDD} \rightarrow \text{算子操作} $$ 行

spark , 數據集 , 開發語言 , 一對一 , Css , c , 前端開發 , HTML

收藏 評論

mob64ca13f83523 - spark 寫入結構化數據到hdfs

(resilient distributed dataset,RDD)是一個非常重要的分佈式數據架構,即彈性分佈式數據集。   它是邏輯集中的實體,在集羣中的多台機器上進行了數據分 區。通過對多台機器上不同RDD分區的控制,就能夠減少機器之間的數據重排(data shuffling)。Spark提供了“partitionBy”運算符,能夠通過集羣中多台機器之間對原始RDD進

spark , hdfs , 大數據 , spark 寫入結構化數據到hdfs , 數據 , hadoop

收藏 評論

mob64ca1413c518 - spark 決策樹剪枝 spss決策樹剪枝

決策樹——剪枝 本篇是決策樹系列的第二篇,介紹一下決策樹的剪枝過程。過擬合是決策樹構建過程中常見的問題,信息失衡、噪聲等問題都會導致過擬合,剪枝則是提高決策樹模型泛化能力的重要手段,下面對常用的剪枝方法作一些介紹。 1.預剪枝 決策樹系列第一篇《分類:決策樹——樹的生長》中提到過,樹的生長是一種“完全”式的生長,終止條件也僅有“所有的樣本屬於同一類,

spark , 結點 , 誤分類 , 決策樹 , spark 決策樹剪枝 , 大數據 , 子樹

收藏 評論

海豚調度平台 - 圖解 Apache DolphinScheduler 如何配置飛書告警

飛書創建羣,並添加自定義機器人 記住這個【Webhook】後面配置【海豚告警】的時候會用到。 配置告警 在【安全中心】中,選擇【告警實例管理】中的【創建告警實例】。 在【選擇插件】中,選擇【Feishu】,將前面的【Webhook】填進【Web鈎子】。 然後,在【安全中心】的【告

spark , 大數據 , 自定義 , 推送 , Web

收藏 評論

趙渝強老師 - 【趙渝強老師】阿里雲大數據存儲計算服務:MaxCompute

阿里雲大數據計算服務(MaxCompute)是一種快速、完全託管的TB/PB級數據倉庫解決方案。MaxCompute向用户提供了完善的數據導入方案以及多種經典的分佈式計算模型,能夠更快速的解決用户海量數據計算問題,有效降低企業成本,並保障數據安全。 視頻講解如下: https://www.bilibili.com/video/BV19M8izmEoU/?aid=114924365812...

spark , 大數據 , hadoop , 阿里雲

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據在智能體育賽事運動員體能監測與訓練計劃調整中的應用

(centerJava 大視界 -- Java 大數據在智能體育賽事運動員體能監測與訓練計劃調整中的應用/center) 引言 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!當體育競技的號角愈發激昂,運動員每一次成績突破的背後,都藏着體能科學與訓練智慧的較量。傳統的體能監測和訓練模式,如同用舊地圖探索新大陸,數據零散、分析滯後,早已無法滿

spark , Java 大數據 , 大數據 , yyds乾貨盤點 , 數據 , 訓練計劃 , JAVA , 智能體育

收藏 評論