hdfs

標籤

貢獻22

143

04:29 AM · Nov 05 ,2025

zhaoqianglaoshi 頭像

kamier 頭像

@zhaoqianglaoshi

暱稱趙渝強老師

Last seen
@kamier

暱稱kamier

Last seen
@u_16213583

暱稱mob64ca13f83523

Last seen
@u_16099335

暱稱碼海無壓

Last seen
@u_16213720

暱稱mob64ca14193248

Last seen
@u_16213617

暱稱mob64ca140088a9

Last seen
@u_16213592

暱稱mob64ca13fa6a3c

Last seen
@wang

暱稱江南獨孤客

Last seen
@u_16213575

暱稱墨舞青雲

Last seen
@u_16213561

暱稱技術極客俠

Last seen
@love51

暱稱GhostLover

Last seen
@u_16099302

暱稱技術極先鋒

Last seen

@hdfs / 博客 RSS 訂閱

kamier 頭像

Mar 07 2025

kamier - 【Hadoop】HDFS架構解析

一、HDFS簡介 HDFS（Hadoop Distributed File System）是一個分佈式文件系統，它的主要設計目標是為了解決‌存儲和處理大規模數據的挑戰‌，尤其針對‌低成本硬件集羣‌和‌高吞吐量批處理‌場景。其有以下幾個主要特性：跨平台（底層由Java開發，天然支持跨平台部署）高容錯（數據冗餘存儲，數據塊默認有3個副本）高吞吐（並行讀取或寫入多個數據塊，且是順序讀寫，流

hdfs , 大數據 , hadoop

zhaoqianglaoshi 頭像

Aug 18 2025

趙渝強老師 - 【趙渝強老師】Hadoop HDFS的快照

HDFS的快照（Snapshot）是一個全部文件系統、或者某個目錄在某一時刻的鏡像。這裏其實可以把HDFS的快照理解成是HDFS提供的一種備份機制。快照應用在以下場景中：防止用户的錯誤操作備份試驗/測試災難恢復視頻講解如下： https://www.bilibili.com/video/BV1eTYCzVE4b/?aid=115043685437... 由於HDFS的快

hdfs , 大數據 , hadoop , JAVA

zhaoqianglaoshi 頭像

Nov 05 2025

趙渝強老師 - 【趙渝強老師】HBase的物理存儲結構

HBase的存儲結構分為邏輯存儲結構與物理存儲結構，並且HBase通過邏輯存儲結構來管理物理存儲結構。而最終物理存儲對應的文件又是存儲在HDFS之上。而HBase的物理存儲結構主要包括StoreFile、HFile和HLog日誌。視頻講解如下： https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410... 一、數據文件HF

hdfs , nosql , hadoop , 數據庫 , hbase

zhaoqianglaoshi 頭像

Nov 05 2025

趙渝強老師 - 【趙渝強老師】HBase的邏輯存儲結構

HBase的邏輯存儲結構主要包括：命名空間（NameSpace）、表（Table）和列族（Column Family）。視頻講解如下： https://www.bilibili.com/video/BV1T3BrYcE8a/?aid=113529894410... 下面分別進行介紹。一、命名空間（NameSpace） HBase的命名空間相當於Oracle和MySQL中的數據庫，它是對錶

hdfs , nosql , hadoop , 數據庫 , hbase

zhaoqianglaoshi 頭像

Nov 05 2025

趙渝強老師 - 【趙渝強老師】HBase的體系架構

HBase是大表（BigTable）思想的一個具體實現。它是一個列式存儲的NoSQL數據庫，適合執行數據的分析和處理。簡單來説，就是適合執行查詢操作。從體系架構的角度看，HBase是一種主從架構，包含：HBase HMaster、Region Server和ZooKeeper，下圖展示了這一架構。其中： HBase HMaster負責Region的分配及數據庫的創建和刪除等操作。

hdfs , nosql , hadoop , 數據庫 , hbase

Nov 21 2025

lingyuli - 大數據系統包含哪些組件？需要過等保嗎？_大數據_行雲管家

hdfs impala kudu spark flink hudi 技術在大數據生態中分工明確，應用場景各有側重，以下是它們的核心應用場景及典型搭配： 1. Hadoop HDFS：底層海量數據存儲核心場景：作為分佈式存儲基石，適用於所有需要存儲海量數據（TB/PB級）的場景，尤其擅長存儲結構化、半結構化、非結構化數

hdfs , 大數據 , 數據 , 後端開發 , SQL , Python

Nov 24 2025

編程小天才 - 5.3.《hadoop實戰》Hadoop數據管理之Hive_eternity

Hive與HDFS集成：數據存儲路徑管理技巧在Hive與HDFS集成中，合理管理數據存儲路徑是提升性能和維護效率的關鍵。以下是核心管理技巧： 1. 自定義存儲路徑創建表時使用LOCATION子句指定HDFS路徑，避免使用默認倉庫目錄： CREATE EXTERNAL TABLE sales_data ( id I

hdfs , hive , hadoop , 後端開發 , Python

tech 頭像

Nov 16 2025

青雲交技術圈 - Java 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用

(centerJava 大視界 -- Java 大數據機器學習模型在遙感圖像土地利用分類中的優化與應用/center) 引言嘿，親愛的 Java 和大數據愛好者們，大家好！我是CSDN（全區域）四榜榜首青雲交！隨着衞星遙感技術的飛速發展，我們得以從 “上帝視角” 俯瞰地球，海量遙感圖像數據如同寶庫，藴藏着土地利用的關鍵信息。但面對這 “數據洪流”，傳統分類方法如同在茫茫大海撈

機器學習 , spark , hdfs , 大數據 , yyds乾貨盤點 , 數據 , Java大數據 , 遙感圖像

chen_67f9ccbe6f07b 頭像

Apr 16 2025

異常君 - 【大數據內核解密】HDFS 架構與數據模型：從理論到實戰全解析

作為 Hadoop 生態系統的基石，HDFS (Hadoop Distributed File System)為大數據應用提供了高吞吐量、高容錯性和高可用性的存儲解決方案。本文將深入剖析 HDFS 的核心架構、數據模型和關鍵機制，帶你全面瞭解這個分佈式文件系統的內部工作原理。一、HDFS 主從架構：NameNode 與 DataNode 的協作機制 HDFS 採用典型的主從架構設計，由一個 Na

hdfs , 大數據 , hadoop , 後端

Nov 21 2025

mob64ca14157da7 - 熟練掌握HDFS的Shell訪問和JavaAPI訪問

以下是一個關於HDFS操作的技術文章大綱，主題聚焦於三種客户端操作方式：命令行操作、網頁界面操作（通過9870端口）和Java代碼操作。 1. 引言介紹Hadoop分佈式文件系統（HDFS）的基本概念和重要性。概述三種操作方式：命令行（client1）、網頁界面（client2）和Java API（client3）。

hdfs , hadoop , JAVA , 前端開發 , 前端 , Javascript

zhaoqianglaoshi 頭像

Jul 15 2025

趙渝強老師 - 【趙渝強老師】大數據交換引擎Sqoop

Sqoop是SQL To Hadoop的簡稱，它是一款開源的工具，主要用於在Hadoop（Hive）與傳統的數據庫（Oracle、MySQL等）間進行數據的傳遞。通過使用Sqoop可以將一個關係型數據庫中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。Sqoop是基於MapReduce完成數據的交換，因此在使用Sqoop之前需要部署Hadoop環境；另一方面，由於

hdfs , 大數據 , hadoop , etl , sqoop

wl_68521de393432 頭像

Jun 26 2025

WL - hadoop 大數據學習03（hadoop生態以及非高可用集羣搭建）

hadoop 大數據主要生態組成架構圖以及描述 HDFS 高吞吐量的分佈式文件系統 YARN 用於任務調度和資源管理及分配的框架 MapReduce 運行與YARN之上，用於並行處理大數據的框架 Zookeeper 高性能的分佈式應用協調服務 Flume 日誌收集服務，用於將大量日誌數據衝不同的來源收集、聚合、最終移動到一個具體中心進行存續 Sqoop 用於將關係型數據庫與hado

hdfs , 大數據 , yarn , hadoop

Dec 12 2025

mob64ca140234eb - 2.HDFS之客户端操作 - 送你一顆光芒海的個人空間 -

一、HDFS的Shell操作（一）、進程啓停管理 1.一鍵啓停腳本（1）$HADOOP_HOME/sbin/start-dfs.sh,一鍵啓動HDFS集羣注：輸入後可能會出現如下情況 c.輸入後顯示連接出現問題，只需將其他兩個虛擬機（node2，node

hdfs , 大數據 , hadoop , 後端開發 , Python

Dec 14 2025

數碼悟透 - HDFS兩種操作方式：命令行和Java API

一、引言 Hadoop 分佈式文件系統（HDFS）作為大數據生態的核心存儲組件，憑藉高容錯性、高擴展性及海量數據存儲能力，成為分佈式數據處理場景的基石。本文聚焦 HDFS 的三種核心客户端操作模式 —— 命令行客户端（client1）、9870 端口 Web UI 客户端（client2）與 Java API 客户端（client3），將系統拆解每

hdfs , hadoop , 後端開發 , 前端 , Python , ui

Dec 01 2025

mob64ca13f83523 - spark 寫入結構化數據到hdfs

（resilient distributed dataset，RDD）是一個非常重要的分佈式數據架構，即彈性分佈式數據集。　　它是邏輯集中的實體，在集羣中的多台機器上進行了數據分區。通過對多台機器上不同RDD分區的控制，就能夠減少機器之間的數據重排（data shuffling）。Spark提供了“partitionBy”運算符，能夠通過集羣中多台機器之間對原始RDD進

spark , hdfs , 大數據 , spark 寫入結構化數據到hdfs , 數據 , hadoop

Nov 30 2025

lanhy - Hadoop集羣環境啓動順序

在 ZooKeeper 搭建 Hadoop HA 集羣時，啓動順序非常重要，錯誤的順序會導致服務無法正常啓動或無法實現高可用。 Hadoop HA 集羣的正確啓動順序第1步：啓動 ZooKeeper 集羣在所有 ZooKeeper 節點上啓動： # 在每台 ZK 節點上執行 zkServer.sh start #

hdfs , 大數據 , Debian , hadoop , 後端開發 , Python

Nov 19 2025

u_14767244 - 浩瀚深度：從 ClickHouse 到 Doris，支撐單表 13PB、534 萬億行的超大規模數據分析場景

浩瀚深度（[SHA: 688292]）旗下企業級大數據平台選擇 Apache Doris 作為核心數據庫解決方案，目前已在全國範圍內十餘個生產環境中穩步運行，其中最大規模集羣部署於 117 個高性能服務器節點，單表原始數據量超 13PB，行數突破 534 萬億，日均導入數據約 145TB，節假日峯值達 158TB，是目前已知國內最大單表。憑藉 Apache Doris 的高可靠、

hdfs , 大數據 , 數據 , 數據倉庫 , apache

Dec 08 2025

技術極先鋒 - hive常用功能：Hive數據導入導出方式_51CTO博客

往hive導入數據的幾種方式一、導入數據 1. LOAD DATA(最直接、最常用) -- 從 HDFS 導入（移動文件） LOAD DATA INPATH 'hdfs_path' [OVERWRITE] INTO TABLE table_name [PARTITION(part_col=value)]; -- 從本地文件系統導入（複製文件到 Hi

hdfs , 大數據 , hive

zhaoqianglaoshi 頭像

Mar 02 2025

趙渝強老師 - 【趙渝強老師】史上最詳細：Hadoop HDFS的體系架構

在Hadoop HDFS的體系架構中，包含了三個組成部分。它們分別是：NameNode、DataNode和SecondaryNameNode。下圖摘至Hadoop官方的網站，它説明了HDFS的體系架構。視頻講解如下： https://www.bilibili.com/video/BV1eh23Y5En9/?aid=113282883000... 一、NameNode的職責 Name

hdfs , 大數據 , hadoop

Nov 20 2025

GhostLover - HDFS安全模式實戰篇

Hadoop安全模式詳解安全模式是 Hadoop HDFS 中的一種特殊運行狀態，主要用於保障 NameNode 啓動過程中文件系統元數據的一致性和完整性，同時確保數據塊的可用性。以下從安全模式的觸發時機、核心作用、工作流程、退出條件及相關操作等方面進行詳細説明。一、安全模式的觸發時機安全模式主要在以下場景下觸發：

hdfs , 安全模式 , 數據塊 , 後端開發 , harmonyos , 後端

kamier 頭像

Mar 25 2025

kamier - 【Hadoop】HBase系統解析及適用場景

一、HBase產生背景在大數據時代，傳統的關係型數據庫（如Mysql、Oracle）在大數據量下的併發讀寫及可拓展性方面遇到瓶頸，尤其是處理海量的非結構化、半結構化數據時效率較低，而Hadoop的HDFS雖然支持海量數據的存儲以及批處理，但其無法支持隨機讀寫和低延遲查詢（HDFS 中的文件一旦寫入不能修改，只能追加），所以HBase被設計出來，彌補了HDFS在實時訪問能力上的不足。 HBase是

hdfs , 大數據 , hadoop , hbase

Nov 29 2025

技術極客俠 - Hadoop HDFS操作

在大數據領域，Hadoop HDFS（分佈式文件系統）是最核心的存儲組件之一。本文將詳細介紹HDFS的集羣管理命令和文件操作技巧，幫助您快速掌握Hadoop的日常運維。一、HDFS集羣一鍵啓停 Hadoop HDFS組件內置了便捷的一鍵啓停腳本，極大簡化了集羣管理流程。啓動集羣 $HADOOP_HOME/sbin/s

hdfs , 大數據 , hadoop , 後端開發 , Python

Dec 26 2025

墨舞青雲 - hive併發寫入

一、概述 Hive由Facebook開源，是一個構建在Hadoop之上的數據倉庫工具將結構化的數據映射成表支持類SQL查詢，Hive中稱為HQL 1.讀模式 2.Hive架構 3.使用Hive的原因 Hadoop數據分析的問題： MapReduce實現複雜查詢邏輯開發難度大，週期長開發速

hdfs , hive併發寫入 , 大數據 , hive , hadoop

Nov 27 2025

江南獨孤客 - CDH的HDFS DataNODE修改了參數之後，重啓失敗又會回退之前的配置狀態

CDH的HDFS DataNODE修改了參數之後，重啓又會回退之前的配置狀態，日誌裏面的關鍵日誌是：根據日誌中Permission denied錯誤和健康檢查禁用狀態，結合Cloudera Manager的運行機制，以下是系統性解決方案：一、核心問題分析權限拒絕根源 Can't open /var/run/cloud

hdfs , cloudera , 大數據 , hive , 重啓