溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hadoop中的Shuffle是什么

發(fā)布時間:2021-12-09 15:45:35 來源:億速云 閱讀:154 作者:小新 欄目:云計算

小編給大家分享一下Hadoop中的Shuffle是什么,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

Hadoop中的Shuffle是什么

Shuffle描述著數(shù)據(jù)從Map Task輸出到Reduce Task輸入的這段過程。

Map端

            1、每個Map有一個環(huán)形內(nèi)存緩沖區(qū),用于存儲任務(wù)的輸出,默認(rèn)大小100MB(io.sort.mb屬性),一旦達(dá)到閥值

                 0.8(io.sort.spill.percent),一個后臺線程把內(nèi)容寫到(spill)磁盤的指定目錄(mapred.local.dir)下的新建的一個

                 溢出文件。

            2、在寫入磁盤前,要Partitioner,Sort,如果有Combiner(聚合),Combiner排序后在寫入數(shù)據(jù)。

            3、等最后把記錄寫完,合并全部溢出寫文件為一個分區(qū)且排序的文件。

Reduce端

             1、Reduce通過Http方式得到輸出的文件的分區(qū)。

             2、TaskTracker為分區(qū)文件運行Reduce任務(wù)。復(fù)制階段把Map輸出復(fù)制到Reduce的內(nèi)存或磁盤。一個Map任                     務(wù)完成,Reduce就開始復(fù)制輸出。

             3、排序階段合并Map輸出,然后走Reduce階段。

             注意:在有些情況下,也有可能沒有任何的Reduce,當(dāng)前數(shù)據(jù)處理可以完全并行時,即無需混洗(shuffle),可能

                       會出現(xiàn)無Reduce任務(wù)的情況,在這種情況下,唯一的非本地節(jié)點數(shù)據(jù)傳輸是Map任務(wù)將結(jié)果寫入HDFS.

以上是“Hadoop中的Shuffle是什么”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI