tag hdfs

標籤
貢獻22
83
04:29 AM · Nov 05 ,2025

@hdfs / 博客 RSS 訂閱

kamier - 【Hadoop】HDFS架構解析

一、HDFS簡介 HDFS(Hadoop Distributed File System)是一個分佈式文件系統,它的主要設計目標是為了解決‌存儲和處理大規模數據的挑戰‌,尤其針對‌低成本硬件集羣‌和‌高吞吐量批處理‌場景。其有以下幾個主要特性: 跨平台(底層由Java開發,天然支持跨平台部署) 高容錯(數據冗餘存儲,數據塊默認有3個副本) 高吞吐(並行讀取或寫入多個數據塊,且是順序讀寫,流

hdfs , 大數據 , hadoop

收藏 評論

趙渝強老師 - 【趙渝強老師】Hadoop HDFS的快照

HDFS的快照(Snapshot)是一個全部文件系統、或者某個目錄在某一時刻的鏡像。這裏其實可以把HDFS的快照理解成是HDFS提供的一種備份機制。快照應用在以下場景中: 防止用户的錯誤操作 備份 試驗/測試 災難恢復 視頻講解如下: https://www.bilibili.com/video/BV1eTYCzVE4b/?aid=115043685437... 由於HDFS的快

hdfs , 大數據 , hadoop , JAVA

收藏 評論

趙渝強老師 - 【趙渝強老師】HBase的物理存儲結構

HBase的存儲結構分為邏輯存儲結構與物理存儲結構,並且HBase通過邏輯存儲結構來管理物理存儲結構。而最終物理存儲對應的文件又是存儲在HDFS之上。而HBase的物理存儲結構主要包括StoreFile、HFile和HLog日誌。視頻講解如下: https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410... 一、 數據文件HF

hdfs , nosql , hadoop , 數據庫 , hbase

收藏 評論

趙渝強老師 - 【趙渝強老師】HBase的邏輯存儲結構

HBase的邏輯存儲結構主要包括:命名空間(NameSpace)、表(Table)和列族(Column Family)。視頻講解如下: https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410... 下面分別進行介紹。 一、 命名空間(NameSpace) HBase的命名空間相當於Oracle和MySQL中的數據庫,它是對錶

hdfs , nosql , hadoop , 數據庫 , hbase

收藏 評論

趙渝強老師 - 【趙渝強老師】HBase的體系架構

HBase是大表(BigTable)思想的一個具體實現。它是一個列式存儲的NoSQL數據庫,適合執行數據的分析和處理。簡單來説,就是適合執行查詢操作。從體系架構的角度看,HBase是一種主從架構,包含:HBase HMaster、Region Server和ZooKeeper,下圖展示了這一架構。 其中: HBase HMaster負責Region的分配及數據庫的創建和刪除等操作。

hdfs , nosql , hadoop , 數據庫 , hbase

收藏 評論

lingyuli - 大數據系統包含哪些組件?需要過等保嗎?_大數據_行雲管家

hdfs impala kudu spark flink hudi 技術在大數據生態中分工明確,應用場景各有側重,以下是它們的核心應用場景及典型搭配: 1. Hadoop HDFS:底層海量數據存儲 核心場景:作為分佈式存儲基石,適用於所有需要存儲海量數據(TB/PB級) 的場景,尤其擅長存儲結構化、半結構化、非結構化數

hdfs , 大數據 , 數據 , 後端開發 , SQL , Python

收藏 評論

編程小天才 - 5.3.《hadoop實戰》Hadoop數據管理之Hive_eternity

Hive與HDFS集成:數據存儲路徑管理技巧 在Hive與HDFS集成中,合理管理數據存儲路徑是提升性能和維護效率的關鍵。以下是核心管理技巧: 1. 自定義存儲路徑 創建表時使用LOCATION子句指定HDFS路徑,避免使用默認倉庫目錄: CREATE EXTERNAL TABLE sales_data ( id I

hdfs , hive , hadoop , 後端開發 , Python

收藏 評論

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用

(centerJava 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用/center) 引言 嘿,親愛的 Java 和 大數據愛好者們,大家好!我是CSDN(全區域)四榜榜首青雲交!隨着衞星遙感技術的飛速發展,我們得以從 “上帝視角” 俯瞰地球,海量遙感圖像數據如同寶庫,藴藏着土地利用的關鍵信息。但面對這 “數據洪流”,傳統分類方法如同在茫茫大海撈

機器學習 , spark , hdfs , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 遙感圖像

收藏 評論

異常君 - 【大數據內核解密】HDFS 架構與數據模型:從理論到實戰全解析

作為 Hadoop 生態系統的基石,HDFS (Hadoop Distributed File System)為大數據應用提供了高吞吐量、高容錯性和高可用性的存儲解決方案。本文將深入剖析 HDFS 的核心架構、數據模型和關鍵機制,帶你全面瞭解這個分佈式文件系統的內部工作原理。 一、HDFS 主從架構:NameNode 與 DataNode 的協作機制 HDFS 採用典型的主從架構設計,由一個 Na

hdfs , 大數據 , hadoop , 後端

收藏 評論

mob64ca14157da7 - 熟練掌握HDFS的Shell訪問和JavaAPI訪問

以下是一個關於HDFS操作的技術文章大綱,主題聚焦於三種客户端操作方式:命令行操作、網頁界面操作(通過9870端口)和Java代碼操作。 1. 引言 介紹Hadoop分佈式文件系統(HDFS)的基本概念和重要性。 概述三種操作方式:命令行(client1)、網頁界面(client2)和Java API(client3)。

hdfs , hadoop , JAVA , 前端開發 , 前端 , Javascript

收藏 評論

趙渝強老師 - 【趙渝強老師】大數據交換引擎Sqoop

Sqoop是SQL To Hadoop的簡稱,它是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(Oracle、MySQL等)間進行數據的傳遞。通過使用Sqoop可以將一個關係型數據庫中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。Sqoop是基於MapReduce完成數據的交換,因此在使用Sqoop之前需要部署Hadoop環境;另一方面,由於

hdfs , 大數據 , hadoop , etl , sqoop

收藏 評論

WL - hadoop 大數據學習03(hadoop生態以及非高可用集羣搭建)

hadoop 大數據主要生態組成架構圖以及描述 HDFS 高吞吐量的分佈式文件系統 YARN 用於任務調度和資源管理及分配的框架 MapReduce 運行與YARN之上,用於並行處理大數據的框架 Zookeeper 高性能的分佈式應用協調服務 Flume 日誌收集服務,用於將大量日誌數據衝不同的來源收集、聚合、最終移動到一個具體中心進行存續 Sqoop 用於將關係型數據庫與hado

hdfs , 大數據 , yarn , hadoop

收藏 評論

mob64ca140234eb - 2.HDFS之客户端操作 - 送你一顆光芒海的個人空間 -

一、HDFS的Shell操作 (一)、進程啓停管理 1.一鍵啓停腳本 (1)$HADOOP_HOME/sbin/start-dfs.sh,一鍵啓動HDFS集羣 注:輸入後可能會出現如下情況 c.輸入後顯示連接出現問題,只需將其他兩個虛擬機(node2,node

hdfs , 大數據 , hadoop , 後端開發 , Python

收藏 評論

數碼悟透 - HDFS兩種操作方式:命令行和Java API

一、引言 Hadoop 分佈式文件系統(HDFS)作為大數據生態的核心存儲組件,憑藉高容錯性、高擴展性及海量數據存儲能力,成為分佈式數據處理場景的基石。本文聚焦 HDFS 的三種核心客户端操作模式 —— 命令行客户端(client1)、9870 端口 Web UI 客户端(client2)與 Java API 客户端(client3),將系統拆解每

hdfs , hadoop , 後端開發 , 前端 , Python , ui

收藏 評論

mob64ca13f83523 - spark 寫入結構化數據到hdfs

(resilient distributed dataset,RDD)是一個非常重要的分佈式數據架構,即彈性分佈式數據集。   它是邏輯集中的實體,在集羣中的多台機器上進行了數據分 區。通過對多台機器上不同RDD分區的控制,就能夠減少機器之間的數據重排(data shuffling)。Spark提供了“partitionBy”運算符,能夠通過集羣中多台機器之間對原始RDD進

spark , hdfs , 大數據 , spark 寫入結構化數據到hdfs , 數據 , hadoop

收藏 評論

lanhy - Hadoop集羣環境啓動順序

在 ZooKeeper 搭建 Hadoop HA 集羣時,啓動順序非常重要,錯誤的順序會導致服務無法正常啓動或無法實現高可用。 Hadoop HA 集羣的正確啓動順序 第1步:啓動 ZooKeeper 集羣 在所有 ZooKeeper 節點上啓動: # 在每台 ZK 節點上執行 zkServer.sh start #

hdfs , 大數據 , Debian , hadoop , 後端開發 , Python

收藏 評論

u_14767244 - 浩瀚深度:從 ClickHouse 到 Doris,支撐單表 13PB、534 萬億行的超大規模數據分析場景

浩瀚深度([SHA: 688292])旗下企業級大數據平台選擇 Apache Doris 作為核心數據庫解決方案,目前已在全國範圍內十餘個生產環境中穩步運行,其中最大規模集羣部署於 117 個高性能服務器節點,單表原始數據量超 13PB,行數突破 534 萬億,日均導入數據約 145TB,節假日峯值達 158TB,是目前已知國內最大單表。憑藉 Apache Doris 的高可靠、

hdfs , 大數據 , 數據 , 數據倉庫 , apache

收藏 評論

技術極先鋒 - hive常用功能:Hive數據導入導出方式_51CTO博客

往hive導入數據的幾種方式 一、導入數據 1. LOAD DATA(最直接、最常用) -- 從 HDFS 導入(移動文件) LOAD DATA INPATH 'hdfs_path' [OVERWRITE] INTO TABLE table_name [PARTITION(part_col=value)]; -- 從本地文件系統導入(複製文件到 Hi

hdfs , 大數據 , hive

收藏 評論

趙渝強老師 - 【趙渝強老師】史上最詳細:Hadoop HDFS的體系架構

在Hadoop HDFS的體系架構中,包含了三個組成部分。它們分別是:NameNode、DataNode和SecondaryNameNode。下圖摘至Hadoop官方的網站,它説明了HDFS的體系架構。 視頻講解如下: https://www.bilibili.com/video/BV1eh23Y5En9/?aid=113282883000... 一、NameNode的職責 Name

hdfs , 大數據 , hadoop

收藏 評論

GhostLover - HDFS安全模式實戰篇

Hadoop安全模式詳解 安全模式是 Hadoop HDFS 中的一種特殊運行狀態,主要用於保障 NameNode 啓動過程中文件系統元數據的一致性和完整性,同時確保數據塊的可用性。以下從安全模式的觸發時機、核心作用、工作流程、退出條件及相關操作等方面進行詳細説明。 一、安全模式的觸發時機 安全模式主要在以下場景下觸發:

hdfs , 安全模式 , 數據塊 , 後端開發 , harmonyos , 後端

收藏 評論

kamier - 【Hadoop】HBase系統解析及適用場景

一、HBase產生背景 在大數據時代,傳統的關係型數據庫(如Mysql、Oracle)在大數據量下的併發讀寫及可拓展性方面遇到瓶頸,尤其是處理海量的非結構化、半結構化數據時效率較低,而Hadoop的HDFS雖然支持海量數據的存儲以及批處理,但其無法支持隨機讀寫和低延遲查詢(HDFS 中的文件一旦寫入不能修改,只能追加),所以HBase被設計出來,彌補了HDFS在實時訪問能力上的不足。 HBase是

hdfs , 大數據 , hadoop , hbase

收藏 評論

技術極客俠 - Hadoop HDFS操作

在大數據領域,Hadoop HDFS(分佈式文件系統)是最核心的存儲組件之一。本文將詳細介紹HDFS的集羣管理命令和文件操作技巧,幫助您快速掌握Hadoop的日常運維。 一、HDFS集羣一鍵啓停 Hadoop HDFS組件內置了便捷的一鍵啓停腳本,極大簡化了集羣管理流程。 啓動集羣 $HADOOP_HOME/sbin/s

hdfs , 大數據 , hadoop , 後端開發 , Python

收藏 評論

墨舞青雲 - hive併發寫入

一、概述 Hive由Facebook開源,是一個構建在Hadoop之上的數據倉庫工具 將結構化的數據映射成表 支持類SQL查詢,Hive中稱為HQL 1.讀模式 2.Hive架構 3.使用Hive的原因 Hadoop數據分析的問題: MapReduce實現複雜查詢邏輯開發難度大,週期長 開發速

hdfs , hive併發寫入 , 大數據 , hive , hadoop

收藏 評論

江南獨孤客 - CDH的HDFS DataNODE修改了參數之後,重啓失敗又會回退之前的配置狀態

CDH的HDFS DataNODE修改了參數之後,重啓又會回退之前的配置狀態,日誌裏面的關鍵日誌是: 根據日誌中Permission denied錯誤和健康檢查禁用狀態,結合Cloudera Manager的運行機制,以下是系統性解決方案: 一、核心問題分析 權限拒絕根源 Can't open /var/run/cloud

hdfs , cloudera , 大數據 , hive , 重啓

收藏 評論