1、Mapper的key排序方式默認為快速排序,合併切片文件時用的是歸併排序,繼承Mapper類 * 驅動類關聯map:job.setMapperClass(WordcountMapper.class); 2、Reducer需要繼承Reducer類,重寫reduce(key, values, context)
數據傾斜是指,map /reduce程序執行時,reduce節點大部分執行完畢,但是有一個或者幾個reduce節點運行很慢,導致整個程序的處理時間很長,這是因為某一個key的條數比其他key多很多(有時是百倍或者千倍之多),這條key所在的reduce節點所處理的數據量比其他節點就大很多,從而導致某幾個節點遲遲運行不完。