博客 / 列表

趙渝強老師 - 【趙渝強老師】阿里雲大數據存儲計算服務:MaxCompute

阿里雲大數據計算服務(MaxCompute)是一種快速、完全託管的TB/PB級數據倉庫解決方案。MaxCompute向用户提供了完善的數據導入方案以及多種經典的分佈式計算模型,能夠更快速的解決用户海量數據計算問題,有效降低企業成本,並保障數據安全。 視頻講解如下: https://www.bilibili.com/video/BV19M8izmEoU/?aid=114924365812...

spark , 大數據 , hadoop , 阿里雲

趙渝強老師 - 【趙渝強老師】大數據交換引擎Sqoop

Sqoop是SQL To Hadoop的簡稱,它是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(Oracle、MySQL等)間進行數據的傳遞。通過使用Sqoop可以將一個關係型數據庫中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。Sqoop是基於MapReduce完成數據的交換,因此在使用Sqoop之前需要部署Hadoop環境;另一方面,由於

hdfs , 大數據 , hadoop , etl , sqoop

趙渝強老師 - 【趙渝強老師】史上最詳細:Hadoop HDFS的體系架構

在Hadoop HDFS的體系架構中,包含了三個組成部分。它們分別是:NameNode、DataNode和SecondaryNameNode。下圖摘至Hadoop官方的網站,它説明了HDFS的體系架構。 視頻講解如下: https://www.bilibili.com/video/BV1eh23Y5En9/?aid=113282883000... 一、NameNode的職責 Name

hdfs , 大數據 , hadoop

趙渝強老師 - 【趙渝強老師】Spark RDD的緩存機制

Spark RDD通過persist方法或cache方法可以將計算結果的緩存,但是並不是這兩個方法被調用時立即緩存,而是觸發後面的action時,該RDD才會被緩存在計算節點的內存中並供後面重用。下面是persist方法或cache方法的函數定義: def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def cache(): t

spark , 大數據

趙渝強老師 - 【趙渝強老師】MySQL InnoDB的數據文件與重做日誌文件

MySQL與Oracle一樣都是通過邏輯存儲結構來管理物理存儲結構,即管理硬盤上存儲的各種文件。下面將詳細介紹InnoDB存儲引擎中的數據文件和重做日誌文件。 一、數據文件 “.ibd”文件和ibdata文件 這兩種文件都是存放Innodb數據的文件,之所以有兩種文件來存放Innodb的數據(包括索引),是因為 Innodb 的數據存儲方式能夠通過配置來決定是使用共享表空間存放存儲數據,還是獨享表

MySQL , innodb , 數據庫 , SQL

趙渝強老師 - 【趙渝強老師】Hive的分區表

Hive的分區表跟Oracle、MySQL中分區表的概念是一樣的。當表上建立了分區,就會根據分區的條件從物理存儲上將表中的數據進行分隔存儲。而當執行查詢語句時候,也會根據分區的條件掃描特定分區中的數據,從而避免全表掃描以提高查詢的效率。Hive分區表中的每個分區將會在HDFS上創建一個目錄,分區中的數據則是該目錄下的文件。在執行查詢語句時,可以通過SQL的執行計劃瞭解到是否在查詢的時候掃描的特定的

大數據 , hive , hadoop , SQL

趙渝強老師 - 【趙渝強老師】Hive的內部表與外部表

Hive是基於HDFS之上的數據倉庫,它把所有的數據存儲在HDFS中,Hive並沒有專門的數據存儲格式。當在Hive中創建了表,可以使用load語句將本地或者HDFS上的數據加載到表中,從而使用SQL語句進行分析和處理。 Hive的數據模型主要是指Hive的表結構,可以分為:內部表、外部表、分區表、臨時表和桶表,同時Hive也支持視圖。視頻講解如下: https://www.bilibili

大數據 , hive , 數據倉庫 , hadoop , SQL

趙渝強老師 - 【趙渝強老師】基於ZooKeeper實現Hadoop HA

  由於在HA架構中包含的節點比較多,在進行實際部署的時候需要做好集羣的規劃。圖14.9一共使用了4個節點來部署HDFS HA,它們分別是:bigdata112、bigdata113、bigdata114和bigdata115。由於Hadoop默認包含了HDFS和Yarn,因此在部署HDFS HA的時候,也可以同時部署Yarn的HA。每個節點上部署的服務如下表所示:   視頻講解如下:

ha , 大數據 , hadoop , zookeeper

趙渝強老師 - 【趙渝強老師】大數據主從架構的單點故障

  大數據體系架構中的核心組件都是主從架構,即:存在一個主節點和多個從節點,從而組成一個分佈式環境。下圖為展示了大數據體系中主從架構的相關組件。   視頻講解如下: https://www.bilibili.com/video/BV1vz421z72U/?aid=1355982530c...   從上圖可以看出大數據的核心組件都是一種主從架構,而只要是主從架構就存在單點故障的問

spark , 大數據 , hadoop , zookeeper , flink

趙渝強老師 - 【趙渝強老師】大數據生態圈中的組件

  大數據體系架構中的組件非常多,每個組件又屬於不同的生態圈系統。從最早的Hadoop生態圈體系開始,逐步有了Spark生態圈體系和Flink生態圈體系。因此在學習大數據之前有必要了解一下每一個生態圈體系中具體包含哪些組件,以及它們的作用又是什麼。   視頻講解如下: https://www.bilibili.com/video/BV1UE421N7RC/?aid=1655938699

spark , 大數據 , hadoop , flink , kafka