map/reduce之間的shuffle，partition，combiner過程的詳解

發(fā)布時間：2020-06-20 10:02:02 來源：網絡閱讀：1760 作者：crazy_charles 欄目：大數據

1，什么是mapreduce ？

Mapreduce是一種編程模型，是一種編程方法，抽象理論。

hadoop要分布式包括兩部分，一是分布式文件系統(tǒng)hdfs,一部是分布式計算框，就是mapreduce,缺一不可，也就是說，可以通過mapreduce很容易在hadoop平臺上進行分布式的計算編程。MR由兩個階段組成，map和reduce，用戶只需要實現map（）和reduce（）兩個函數，即可實現分布式計算

2，mapreduce工作原理和執(zhí)行步驟見下：

map/reduce之間的shuffle，partition，combiner過程的詳解

Shuffle的本意是洗牌、混亂的意思，類似于java中的Collections.shuffle(List)方法，它會隨機地打亂參數list里的元素順序。MapReduce中的Shuffle過程。

所謂Shuffle過程可以大致的理解成：怎樣把map task的輸出結果有效地傳送到reduce輸入端。也可以這樣理解， Shuffle描述著數據從map task輸出到reduce task輸入的這段過程。

上圖表示的是Shuffle的整個過程。在Hadoop這樣的集群環(huán)境中，大部分map task與reduce task的執(zhí)行是在不同的節(jié)點上。當然很多情況下Reduce執(zhí)行時需要跨節(jié)點去讀取其它節(jié)點上的map task結果，并存儲到本地。如果集群正在運行的job有很多，那么task的正常執(zhí)行對集群內部的網絡資源消耗會很嚴重。這種網絡消耗是正常的，我們不能限制，能做的就是最大化地減少不必要的消耗。另外在節(jié)點內，相比于內存，磁盤IO對job完成時間的影響也是比較大的，spark 就是基于這點對hadoop做出了改進，將map和reduce的所有任務都在內存中進行，并且中間接過都保存在內存中，從而比hadoop的速度要快100倍以上。從最基本的要求來說，我們對Shuffle過程希望做到：　　　　

完整地從map task端讀取數據到reduce 端。
在跨節(jié)點讀取數據時，盡可能地減少對帶寬的不必要消耗。
減少磁盤IO對task執(zhí)行的影響。

Shuffle實際上包括map端和reduce端的兩個過程，在map端中我們稱之為前半段，在reduce端我們稱之為后半段。

Shuffle前半段過程主要包括：

1、split過程

2、partition過程：partition是分割map每個節(jié)點的結果，按照key分別映射給不同的reduce，也是可以自定義的。

3、溢寫過程

4、Merge過程

每個map task都有一個內存緩沖區(qū)，存儲著map的輸出結果，當緩沖區(qū)快滿的時候需要將緩沖區(qū)的數據以一個臨時文件的方式存放到磁盤，當整個map task結束后再對磁盤中這個map task產生的所有臨時文件做合并，生成最終的正式輸出文件，然后等待reduce task來讀取數據。下面可以將Shuffle過程主要分為四個步驟：（結合WordCount的例子來進行說明）

1、split過程：在map task執(zhí)行時，它的輸入數據來源于HDFS的block，當然在MapReduce概念中，map task只讀取split。Split與block的對應關系可能是多對一，默認是一對一。在WordCount例子里，假設map的輸入數據都是像“aaa”這樣的字符串。

2、partiton過程：在經過mapper的運行后，我們得知mapper的輸出是這樣一個key/value對： key是“aaa”， value是數值1。因為當前map端只做加1的操作，在reduce task里才去合并結果集。前面我們知道這個job有3個reduce task，到底當前的“aaa”應該交由哪個reduce去做呢，這個主要有partition來決定。下面就說明如何決定由哪個reduce去做這個事情。
      MapReduce提供Partitioner接口，它的作用就是根據key或value及reduce的數量來決定當前的這對輸出數據最終應該交由哪個reduce task處理。默認是對key hash后再以reduce task數量取模。默認的取模方式只是為了平均reduce的處理能力，如果用戶自己對Partitioner有需求，可以自己重新實現partition的接口并設置到job上即可。
      在我們的例子中，“aaa”經過Partitioner后返回0，也就是這對值應當交由第一個reducer來處理。接下來，需要將數據寫入內存緩沖區(qū)中，緩沖區(qū)的作用是批量收集map結果，減少磁盤IO的影響。我們的key/value對以及Partition的結果都會被寫入緩沖區(qū)。當然寫入之前，key與value值都會被序列化成字節(jié)數組。

3、溢寫過程：這個內存緩沖區(qū)是有大小限制的，默認是100MB，也可以通過設置配置文件中的參數mapreduce.task.io.sort.mb來設置。當map task的輸出結果很多時，就可能會撐爆內存，所以需要在一定條件下將緩沖區(qū)中的數據臨時寫入磁盤，然后重新利用這塊緩沖區(qū)。這個從內存往磁盤寫數據的過程被稱為Spill，中文可譯為溢寫，字面意思很直觀。這個溢寫是由單獨線程來完成，不影響往緩沖區(qū)寫map結果的線程。溢寫線程啟動時不應該阻止map的結果輸出，所以整個緩沖區(qū)有個溢寫的比例spill.percent。這個比例默認是0.8，也就是當緩沖區(qū)的數據已經達到閾值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢寫線程啟動，鎖定這80MB的內存，執(zhí)行溢寫過程。Map task的輸出結果還可以往剩下的20MB內存中寫，互不影響。
當溢寫線程啟動后，需要對這80MB空間內的key做排序(Sort)。排序是MapReduce模型默認的行為，這里的排序也是對序列化的字節(jié)做的排序。
在這里我們可以想想，因為map task的輸出是需要發(fā)送到不同的reduce端去，而內存緩沖區(qū)沒有對將發(fā)送到相同reduce端的數據做合并，那么這種合并應該是體現是磁盤文件中的。從官方圖上也可以看到寫到磁盤中的溢寫文件是對不同的reduce端的數值做過合并。所以溢寫過程一個很重要的細節(jié)在于，如果有很多個key/value對需要發(fā)送到某個reduce端去，那么需要將這些key/value值拼接到一塊，減少與partition相關的索引記錄。
      在針對每個reduce端而合并數據時，有些數據可能像這樣：“aaa”/1， “aaa”/1。對于WordCount例子，就是簡單地統(tǒng)計單詞出現的次數，如果在同一個map task的結果中有很多個像“aaa”一樣出現多次的key，我們就應該把它們的值合并到一塊，這個過程叫reduce也叫combine。但MapReduce的術語中，reduce只指reduce端執(zhí)行從多個map task取數據做計算的過程。除reduce外，非正式地合并數據只能算做combine了。其實大家知道的，MapReduce中將Combiner等同于Reducer。
      如果client設置過Combiner，那么現在就是使用Combiner的時候了。將有相同key的key/value對的value加起來，減少溢寫到磁盤的數據量。Combiner會優(yōu)化MapReduce的中間結果，所以它在整個模型中會多次使用。那么哪些場景才能使用Combiner呢？從這里分析，Combiner的輸出是Reducer的輸入，Combiner絕不能改變最終的計算結果。所以從我的想法來看，Combiner只應該用于那種Reduce的輸入key/value與輸出key/value類型完全一致，且不影響最終結果的場景。比如累加，最大值等。Combiner的使用一定得慎重，如果用好，它對job執(zhí)行效率有幫助，反之會影響reduce的最終結果。

4、merge過程：merge是將多個溢寫文件合并到一個文件。每次溢寫會在磁盤上生成一個溢寫文件，如果map的輸出結果真的很大，有多次這樣的溢寫發(fā)生，磁盤上相應的就會有多個溢寫文件存在。當map task真正完成時，內存緩沖區(qū)中的數據也全部溢寫到磁盤中形成一個溢寫文件。最終磁盤中會至少有一個這樣的溢寫文件存在(如果map的輸出結果很少，當map執(zhí)行完成時，只會產生一個溢寫文件)，因為最終的文件只有一個，所以需要將這些溢寫文件歸并到一起，這個過程就叫做Merge。Merge是怎樣的？如前面的例子，“aaa”從某個map task讀取過來時值是5，從另外一個map 讀取時值是8，因為它們有相同的key，所以得merge成group。什么是group。對于“aaa”就是像這樣的：{“aaa”, [5, 8, 2, …]}，數組中的值就是從不同溢寫文件中讀取出來的，然后再把這些值加起來。請注意，因為merge是將多個溢寫文件合并到一個文件，所以可能也有相同的key存在，在這個過程中如果client設置過Combiner，也會使用Combiner來合并相同的key。

　　至此，map端的所有工作都已結束，最終生成的這個文件也存放在TaskTracker夠得著的某個本地目錄內。每個reduce task不斷地通過RPC從JobTracker那里獲取map task是否完成的信息，如果reduce task得到通知，獲知某臺TaskTracker上的map task執(zhí)行完成，Shuffle的后半段過程開始啟動。

　　簡單地說，reduce task在執(zhí)行之前的工作就是不斷地拉取當前job里每個map task的最終結果，然后對從不同地方拉取過來的數據不斷地做merge，也最終形成一個文件作為reduce task的輸入文件。

　　Shuffle在reduce端的過程也能用三點來概括。當前reduce copy數據的前提是它要從JobTracker獲得有哪些map task已執(zhí)行結束。Reducer真正運行之前，所有的時間都是在拉取數據，做merge，且不斷重復地在做。如前面的方式一樣，下面我也分段地描述reduce 端的Shuffle細節(jié)：
1. Copy過程，簡單地拉取數據。Reduce進程啟動一些數據copy線程(Fetcher)，通過HTTP方式請求map task所在的TaskTracker獲取map task的輸出文件。因為map task早已結束，這些文件就歸TaskTracker管理在本地磁盤中。

2. Merge階段。這里的merge如map端的merge動作，只是數組中存放的是不同map端copy來的數值。Copy過來的數據會先放入內存緩沖區(qū)中，這里的緩沖區(qū)大小要比map端的更為靈活，它基于JVM的heap size設置，因為Shuffle階段Reducer不運行，所以應該把絕大部分的內存都給Shuffle用。這里需要強調的是，merge有三種形式：1)內存到內存 2)內存到磁盤 3)磁盤到磁盤。默認情況下第一種形式不啟用，讓人比較困惑，是吧。當內存中的數據量到達一定閾值，就啟動內存到磁盤的merge。與map 端類似，這也是溢寫的過程，這個過程中如果你設置有Combiner，也是會啟用的，然后在磁盤中生成了眾多的溢寫文件。第二種merge方式一直在運行，直到沒有map端的數據時才結束，然后啟動第三種磁盤到磁盤的merge方式生成最終的那個文件。

3. Reducer的輸入文件。不斷地merge后，最后會生成一個“最終文件”。為什么加引號？因為這個文件可能存在于磁盤上，也可能存在于內存中。對我們來說，當然希望它存放于內存中，直接作為Reducer的輸入，但默認情況下，這個文件是存放于磁盤中的。當Reducer的輸入文件已定，整個Shuffle才最終結束。然后就是Reducer執(zhí)行，把結果放到HDFS上。

#######################總結############################

Shuffle產生的意義是什么？x
Shuffle過程的期望可以有：
完整地從map task端拉取數據到reduce 端。
在跨節(jié)點拉取數據時，盡可能地減少對帶寬的不必要消耗。
減少磁盤IO對task執(zhí)行的影響。

每個map task都有一個內存緩沖區(qū)，存儲著map的輸出結果，當緩沖區(qū)快滿的時候需要將緩沖區(qū)的數據該如何處理？
每個map task都有一個內存緩沖區(qū)，存儲著map的輸出結果，當緩沖區(qū)快滿的時候需要將緩沖區(qū)的數據以一個臨時文件的方式存放到磁盤，當整個map task結束后再對磁盤中這個map task產生的所有臨時文件做合并，生成最終的正式輸出文件，然后等待reduce task來拉數據。

MapReduce提供Partitioner接口，它的作用是什么？
MapReduce提供Partitioner接口，它的作用就是根據key或value及reduce的數量來決定當前的這對輸出數據最終應該交由哪個reduce task處理。默認對key hash后再以reduce task數量取模。默認的取模方式只是為了平均reduce的處理能力，如果用戶自己對Partitioner有需求，可以訂制并設置到job上。

什么是溢寫？
在一定條件下將緩沖區(qū)中的數據臨時寫入磁盤，然后重新利用這塊緩沖區(qū)。這個從內存往磁盤寫數據的過程被稱為Spill，中文可譯為溢寫。

溢寫是為什么不影響往緩沖區(qū)寫map結果的線程？
溢寫線程啟動時不應該阻止map的結果輸出，所以整個緩沖區(qū)有個溢寫的比例spill.percent。這個比例默認是0.8，也就是當緩沖區(qū)的數據已經達到閾值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢寫線程啟動，鎖定這80MB的內存，執(zhí)行溢寫過程。Map task的輸出結果還可以往剩下的20MB內存中寫，互不影響。

當溢寫線程啟動后，需要對這80MB空間內的key做排序(Sort)。排序是MapReduce模型默認的行為，這里的排序也是對誰的排序？
當溢寫線程啟動后，需要對這80MB空間內的key做排序(Sort)。排序是MapReduce模型默認的行為，這里的排序也是對序列化的字節(jié)做的排序。

溢寫過程中如果有很多個key/value對需要發(fā)送到某個reduce端去，那么如何處理這些key/value值？
如果有很多個key/value對需要發(fā)送到某個reduce端去，那么需要將這些key/value值拼接到一塊，減少與partition相關的索引記錄。

哪些場景才能使用Combiner呢？
Combiner的輸出是Reducer的輸入，Combiner絕不能改變最終的計算結果。所以從我的想法來看，Combiner只應該用于那種Reduce的輸入key/value與輸出key/value類型完全一致，且不影響最終結果的場景。比如累加，最大值等。Combiner的使用一定得慎重，如果用好，它對job執(zhí)行效率有幫助，反之會影響reduce的最終結果。

Merge的作用是什么？
最終磁盤中會至少有一個這樣的溢寫文件存在(如果map的輸出結果很少，當map執(zhí)行完成時，只會產生一個溢寫文件)，因為最終的文件只有一個，所以需要將這些溢寫文件歸并到一起，這個過程就叫做Merge

每個reduce task不斷的通過什么協(xié)議從JobTracker那里獲取map task是否完成的信息？
每個reduce task不斷地通過RPC從JobTracker那里獲取map task是否完成的信息

reduce中Copy過程采用是什么協(xié)議？
Copy過程，簡單地拉取數據。Reduce進程啟動一些數據copy線程(Fetcher)，通過HTTP方式請求map task所在的TaskTracker獲取map task的輸出文件。

reduce中merge過程有幾種方式？
merge有三種形式：1)內存到內存 2)內存到磁盤 3)磁盤到磁盤。默認情況下第一種形式不啟用，讓人比較困惑，是吧。當內存中的數據量到達一定閾值，就啟動內存到磁盤的merge。與map 端類似，這也是溢寫的過程，這個過程中如果你設置有Combiner，也是會啟用的，然后在磁盤中生成了眾多的溢寫文件。第二種merge方式一直在運行，直到沒有map端的數據時才結束，然后啟動第三種磁盤到磁盤的merge方式生成最終的那個文件。

向AI問一下細節(jié)

map/reduce之間的shuffle，partition，combiner過程的詳解

猜你喜歡

最新資訊

相關推薦

相關標簽

map/reduce之間的shuffle，partition，combiner過程的詳解