Spark源碼解析(一):RDD之Transfrom算子
一、延遲計算 RDD 代表的是分佈式數據形態,因此,RDD 到 RDD 之間的轉換,本質上是數據形態上的轉換(Transformations) 在 RDD 的編程模型中,一共有兩種算子,Transformations 類算子和 Actions 類算子。開發者需要使用 Transformations 類算子,定義並描述數據形態的轉換過程,然後調用 Actions 類算子,將計算結果收集起來、或是物化
一、延遲計算 RDD 代表的是分佈式數據形態,因此,RDD 到 RDD 之間的轉換,本質上是數據形態上的轉換(Transformations) 在 RDD 的編程模型中,一共有兩種算子,Transformations 類算子和 Actions 類算子。開發者需要使用 Transformations 類算子,定義並描述數據形態的轉換過程,然後調用 Actions 類算子,將計算結果收集起來、或是物化