tag 大數據

標籤
貢獻385
325
05:15 PM · Oct 25 ,2025

@大數據 / 博客 RSS 訂閱

青雲交技術圈 - Java 大視界 -- 基於 Java 的大數據可視化在城市空氣質量監測與污染溯源中的應用

(centerJava 大視界 -- 基於 Java 的大數據可視化在城市空氣質量監測與污染溯源中的應用/center) 引言: 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!在《大數據新視界》和《 Java 大視界》專欄的技術探索之旅中,我們曾以 Java 大數據為筆,在醫療、家居、農業等領域繪就創新藍圖。Java 大數據不斷突破技術邊

spark , 空氣質量監測 , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 大數據可視化 , JAVA

收藏 評論

數據大俠客 - 如何用yarn編譯前端

在這一章的旅程中,我們將要深入編譯器前端一探究竟。看看編譯器前端到底由哪些組件組成,其分別又是在做什麼。 1. 編譯器前端的結構組成 似乎比我們想象的要簡單,編譯器前端僅由兩個組件組成,詞法分析器與語法分析器。請看下圖: +----------+ +-----------+ 源代碼 - | 詞法分析器 | - 記號流 - | 語

語法分析 , 大數據 , yarn , 編譯器 , 如何用yarn編譯前端 , 詞法分析器

收藏 評論

我就是不長肉而已 - SBD3DF40V1H-ASEMI可直接替代安世PMEG4005EJ

編輯:ll SBD3DF40V1H-ASEMI可直接替代安世PMEG4005EJ 型號:SBD3DF40V1H 品牌:ASEMI 封裝:SOD-323 正向電流:1A 反向電壓:40V 正向壓降:0.44V~0.47V 引線數量:2 芯片個數:1 芯片尺寸:MIL 漏電流:10ua 恢復時間:35ns

ASEMI , 大數據 , hadoop , 在51CTO的第一篇博文 , SBD3DF40V1H , 肖特基二極管

收藏 評論

南大通用GBase - 南大通用GBase 8a堆棧收集方式彙總

集羣在運行過程中偶爾會出現crash,當集羣crash時,從哪裏查看堆棧信息呢?system.log 中記錄了宕機的堆棧信息,core 文件中記錄了宕機的詳細的堆棧信息,如果想要看到詳細的堆棧信息,則需要在集羣coor節點以及集羣data節點的配置文件中,開啓該功能,具體步驟如下: 1、修改集羣coor節點配置文件:在每台集羣coor節點機器的集羣安裝目錄,如/opt/gc

sed , GBase 8a , 大數據 , 配置文件 , 數據倉庫 , 堆棧

收藏 評論

mob64ca14068b0b - 限積天EDADB2

本文包含:--> --> 本文章為轉載內容,我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題,歡迎原作者聯繫我們進行內容更正或刪除文章。

限積天EDADB2 , 大數據 , 數據倉庫 , 定積分

收藏 評論

jowvid - Revit 2021 新增與加強功能詳細介紹

作為建築信息模型(BIM)領域的核心工具,Autodesk Revit 一直是建築、結構、機電等行業設計師的必備軟件。2026.3 版本在 2026 系列的堅實基礎上,針對協同效率、功能深度、性能精度三大核心痛點進行突破性升級,以 AI 賦能、數據驅動為核心,覆蓋從概念設計到施工運維的全生命週期管理,成為工程技術人員提升工作效率的 “利器”。 核心升級一:AI

spark , 項目管理 , 大數據 , 數據 , 運維

收藏 評論

阿里雲大數據AI技術 - DataWorks 又又又升級了,這次我們通過 Arrow 列存格式讓數據同步速度提升10倍!

引言 在大數據時代,數據集成作為企業數據流轉的核心樞紐,承擔着異構數據源之間高效同步的重要職責。隨着數據量的爆炸式增長,傳統的行存同步方式在面對大規模列存數據處理時,逐漸顯露出性能瓶頸。 為解決這一挑戰,DataWorks數據集成推出基於ApacheArrow列存格式的高性能同步能力,實現從“行式傳輸”到“列式直通”的技術躍遷。通過引入零拷貝

大數據 , 數據集成 , 阿里雲 , DataWorks , 人工智能 , 數據分析

收藏 評論

海豚調度平台 - 結項報告完整版 | 為 Apache DolphinScheduler 添加 gRPC 插件

過去兩週,我們對開源之夏活動中表現優異的開發者們進行了簡單的採訪,初步粗略地瞭解了一下他們的開發過程和心得體會。今天,我們將通過同學們的完整結項報告,深入瞭解項目的開發技術細節,希望能夠幫助大家更好地瞭解 Apache DolphinScheduler 項目的最新進展。 接下來是關於***為 Apache DolphinScheduler 添加 gRPC 插件***這一項目的完整報告

spark , github , 大數據 , JAVA , apache

收藏 評論

浪人小風光 - archive裏個人存檔處r18g

歸檔到 GLACIER 或 DEEP_ARCHIVE 存儲類的對象無法實時訪問。您必須首先啓動還原請求,然後耐心等待,直到對象的臨時副本根據您在請求中指定的持續時間(天數)變為可用。 Amazon S3 只會在指定的持續時間內還原對象的臨時副本。在此之後,它會刪除還原的對象副本。您可以通過重新發出還原命令來修改已還原副本的到期時間。在這種情況下,Amazon S3 會更新相

大數據 , 數據 , amazon , hive , archive裏個人存檔處r18g , Standard

收藏 評論

阿里雲大數據AI - 立馬耀:通過阿里雲 Serverless Spark 和 Milvus 構建高效向量檢索系統,驅動個性化推薦業務

作者:廈門立馬耀網絡科技有限公司大數據開發工程師 陳宏毅 背景介紹 行業 蟬選是蟬媽媽出品的達人選品服務平台。蟬選秉持“陪伴達人賺到錢”的品牌使命,致力於洞悉達人變現需求和痛點,提供達人選高傭、穩變現、速響應的選品服務。 業務特徵 個性化推薦:利用大數據和人工智能算法,根據用户的興趣和行為提供定製化的產品推薦。 數據驅動:通過分析用户和市場趨勢,優化推薦策略,提升用户滿意度。 精準營

spark , 大數據 , 搜索 , 阿里雲 , serverless

收藏 評論

百度Geek説 - 百度APP日誌處理框架升級之路

導讀 面對百度APP日均數千億PV、超百PB數據規模帶來的巨大挑戰,我們完成了數據倉庫的系統性升級。本文詳細闡述了通過"兩步走"策略解決資源壓力、處理延遲和架構瓶頸的全過程:第一階段聚焦日誌清洗環節的穩定性與成本優化,第二階段實現實時離線鏈路解耦、核心數據隔離及計算框架容錯能力提升。此次升級顯著提升了數據處理時效性、系統穩定性和成本效益,為業務發展提供了更堅實的數據支撐。 背景 百度APP及其產品

spark , 大數據

收藏 評論

西門吹雪 - 如何給spark配置kerberos認證信息

Tokenizer分詞 進行文本分析前,對文本中句子進行分詞我們處理的第一步。大家都是Spark的機器學習庫分為基於RDD和基於DataFrame的庫,由於基於RDD的庫在Spark2.0以後都處於維護狀態,我們這裏講的分詞就是基於Spark的Dataframe的。主要是講解兩個類Tokenizer和RegexTokenizer的使用。 1

機器學習 , spark , 大數據 , apache

收藏 評論

ApacheSeaTunnel - (四)收官篇!從分層架構到數據湖倉架構系列:數據服務層和數據應用層及湖倉技術趨勢小結

《新興數據湖倉設計與實踐手冊·從分層架構到數據湖倉架構設計(2025 年)》 系列文章將聚焦從數據倉庫分層到數據湖倉架構的設計與實踐。手冊將闡述數據倉庫分層的核心價值、常見分層類型,詳解分層下的 ETL 架構及數據轉換環節,介紹數據倉庫分層對應的技術架構,並以貼源層(ODS)、數據倉庫層(DW)、數據服務層(DWS)為例,深入剖析數湖倉分層設計,最後探討數據倉庫技術趨勢並進行小結。

spark , WhaleStudio , 大數據 , 數據倉庫 , 數據庫 , 白鯨開源

收藏 評論

mob64ca140f29e5 - 高可用,完全分佈式Hadoop集羣HDFS和MapReduce安裝配置指南_51CTO博客

📋 第一步:系統檢查 # 檢查操作系統版本 cat /etc/os-release # 檢查內核版本 uname -r # 檢查Java是否安裝 java -version 運行結果示例: user@server:~$ cat /etc/os-release PRETTY_NAME="Ubuntu 24

大數據 , hadoop , xml , 後端開發 , mapreduce , Python

收藏 評論

網絡安全俠 - pdb2gmx和gaff的區別

---恢復內容開始--- 1.1 電路原理圖         S1-S5共5個按鍵,其中,S2-S4為中斷按鍵,S1為復位按鍵。S1直接為硬件復位電路,並不需要我們寫進驅動。   單片機接口如下圖:               由圖中可以看出,EIN

大數據 , pdb2gmx和gaff的區別 , include , 數據倉庫 , 引腳 , define

收藏 評論

INSVAST - 毅碩HPC | NVIDIA DGX Spark 萬字硬核評測:將AI超級工廠帶上桌面

一、開啓本地AI開發的新紀元 在生成式AI飛速發展的今天,每一位開發者都渴望擁有無拘無束的算力。不再受制於雲端排隊、網絡延遲或數據隱私的顧慮——NVIDIA DGX Spark橫空出世讓這一切有了可能。 它不僅僅是一台計算機,它是濃縮在精緻桌面機箱中的AI數據中心。作為全球首款基於NVIDIA Grace Blackwell架構的個人AI超級計算機,DGX S

spark , 毅碩HPC , 個人AI超級計算機 , NVIDIA DGX Spark , 大數據 , nvidia , 大規模部署

收藏 評論

錦繡前程未央 - 智慧灌區:灌區信息採集系統

一、什麼是智慧灌區數智平台? 智慧灌區數智平台是以感知層(傳感器、無人機、遙感)、傳輸層(5G、LoRa)、數據層(雲計算、大數據)與應用層(AI模型、數字孿生、決策支持)為架構的綜合性數字系統。它通過對氣象、土壤、作物、渠系水位、閘門狀態等全要素實時監測,構建起灌區的“數字鏡像”,並藉助算法模型實現預報、預警、預演、預案的“四預”功能。 例如,在某示範灌區,平台通過

Storm , 大數據 , 數據 , 物聯網

收藏 評論

ApacheFlink - 淘寶閃購基於Flink&Paimon的Lakehouse生產實踐:從實時數倉到湖倉一體化的演進之路

摘要:本文整理自淘寶閃購(餓了麼)大數據架構師王沛斌老師在FlinkForwardAsia2025城市巡迴上海站的分享。 引言 在數字化轉型的浪潮中,企業對實時數據處理的需求日益增長。傳統的實時數倉架構在面對業務快速變化和數據規模爆炸性增長時,逐漸暴露出數據孤島、成本高企、研發效率低下等問題。淘寶閃購(餓了麼)作為阿里巴巴集團重要的本地生活服務平台,在數據架構演進過程中積累了豐富的實踐經驗。 本文

大數據 , flink , 實時計算

收藏 評論

killads - 數據湖為什麼比hive快

導讀: 大數據技術的發展歷程中,繼數據倉庫、數據湖之後,大數據平台的又一革新技術——湖倉一體近年來開始引起業內關注。市場發展催生的數據管理需求一直是數據技術革新的動力。比如數據倉庫如何存儲不同結構的數據?數據湖又如何避免因為缺乏治理導致的數據雜亂現象?今天的文章想跟大傢俱體聊聊我們的數棧如何解決這些問題。 你能看到👇👇👇 ▫ 湖倉一體概念簡述 ▫ 數

數據源 , 大數據 , 數據 , hive , 數據倉庫 , 數據湖為什麼比hive快

收藏 評論

liutao988 - storm work個數

Storm在集羣上運行一個Topology時,主要通過以下3個實體來完成Topology的執行工作: 1. Worker Process(工作進程)——Spout/Bolt中運行具體處理邏輯的進程 2. Executor(線程、執行器)——物理線程 3. Task(任務)——具體的處理邏輯對象 下圖簡要描述了這3者之間的

Storm , 大數據 , API , 並行度 , JAVA , storm work個數

收藏 評論

jack - npm和yarn有什麼區別和聯繫啊

NPM npm 是一個node package installer commander tool。 在安裝了node.js環境下可以通過npm i xxx 來安裝你需要的node package到本地或者全局。 npm i webpack -G //全局安裝,路徑為 /usr/local/bin npm i webpack -S -D //本地安裝,

命令行 , npm和yarn有什麼區別和聯繫啊 , 大數據 , yarn , 應用場景 , Json

收藏 評論

夢想啓航吧 - 二級間接索引示意圖

#define _CRT_SECURE_NO_WARNINGS 1 //樹:非線性的數據結構,由有限個節點組成一個具有層次關係的集合。像是一顆倒掛的樹,所以叫樹。 //樹的相關概念: //1、節點的度:一個節點含有的子樹的個數成為節點的度 //2、葉節點(終端節點):度為0的節點稱為終端節點,(子節點為空的節點) //3、非終端節點(分支節點):度不為0的節點,即(

二級間接索引示意圖 , 大數據 , 數據倉庫 , 二叉樹 , 子樹 , 子節點

收藏 評論

lingyuli - 多索引組合值不可以唯一嘛

長期以來,Lucene在搜索領域的壟斷地位無人能及,基於Lucene之上的Elastic Search與Solr 也是家喻户曉的產品;錄信數據庫最初的版本也是基於Lucene來實現的,在設計之初經常會遇到跟solr、es同樣的問題。如面對幾十億的數據就遇到內存爆掉的問題,此時CPU與IO都飆到系統極限;100億的數據就需要100多台512G的大內

lucene , 大數據 , 索引 , 數據倉庫 , 數據庫 , olap , 多索引組合值不可以唯一嘛

收藏 評論

阿里雲大數據AI - DataWorks千萬級任務調度與全鏈路集成開發治理賦能智能駕駛技術突破

一、智能駕駛數據預處理的行業挑戰 隨着智能駕駛技術的逐級演進,數據驅動的模型訓練範式對數據預處理環節提出三大挑戰: 數據孤島化:需整合攝像頭、LiDAR、毫米波雷達、V2X通信等多模態數據,傳統ETL工具難以實現高效集成。 任務爆炸式增長:單輛測試車每日產生可達50TB 數據,需支持百萬甚至千萬級任務併發調度與彈性擴容。 開發運維一體化需求:要求數據流水線具備高可用性(99.99% SLA

大數據處理 , 大數據 , 自動駕駛 , 數據庫 , 人工智能

收藏 評論