溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

好程序員大數(shù)據(jù)學(xué)習(xí)路線分享MapReduce全過程解析

發(fā)布時間：2020-07-12 15:23:20 來源：網(wǎng)絡(luò) 閱讀：139 作者：wx5d42865f47214 欄目：大數(shù)據(jù)

　　好程序員大數(shù)據(jù)學(xué)習(xí)路線分享MapReduce全過程解析，移動數(shù)據(jù)與移動計(jì)算

　　在學(xué)習(xí)大數(shù)據(jù)的時候接觸了移動數(shù)據(jù)和移動計(jì)算這兩種聯(lián)系緊密而又有很大不同的概念，其中移動計(jì)算也叫做本地計(jì)算。

　　在以前的數(shù)據(jù)處理中時使用的移動數(shù)據(jù)，其實(shí)就是將需要處理的數(shù)據(jù)傳輸?shù)酱娣挪煌幚頂?shù)據(jù)方式邏輯的各個節(jié)點(diǎn)上。這樣做的效率很低，特別是大數(shù)據(jù)中的數(shù)據(jù)量是很大的，至少都是GB以上，更大的是TB、PB甚至更大，而且磁盤I/O、網(wǎng)絡(luò)I/O的效率是很低的，這樣處理起來就需要很長的時間，遠(yuǎn)遠(yuǎn)不能滿足我們的要求。而移動計(jì)算就出現(xiàn)了。

　　移動計(jì)算，也叫做本地計(jì)算，是數(shù)據(jù)就存放在節(jié)點(diǎn)上不再變動，而是將處理邏輯程序傳輸?shù)礁鱾€數(shù)據(jù)節(jié)點(diǎn)上。由于處理程序的大小肯定不會特別的大，這樣就可以實(shí)現(xiàn)很快將程序傳輸?shù)酱娣艛?shù)據(jù)的各個節(jié)點(diǎn)上去，然后本地執(zhí)行處理數(shù)據(jù)，效率高?，F(xiàn)在的大數(shù)據(jù)處理技術(shù)都是采用這種方式。

?

言簡意賅的說：

Map階段：

1、Read：讀取數(shù)據(jù)源，將數(shù)據(jù)進(jìn)行filter成一個個的K/V

2、Map：在map函數(shù)中，處理解析的K/V，并產(chǎn)生新的K/V

3、Collect：輸出結(jié)果，存于環(huán)形內(nèi)緩沖區(qū)

4、Spill：內(nèi)存區(qū)滿，數(shù)據(jù)寫到本地磁盤，并生產(chǎn)臨時文件

5、Combine：合并臨時文件，確保生產(chǎn)一個數(shù)據(jù)文件

?

Reduce階段：

1、Shuffle：Copy階段，Reduce Task到各個Map Task遠(yuǎn)程復(fù)制一分?jǐn)?shù)據(jù)，針對某一份數(shù)據(jù)，2、若其大小超過一定閥值，則寫磁盤；否則放到內(nèi)存

3、Merge：合并內(nèi)存和磁盤上的文件，防止內(nèi)存占用過多或磁盤文件過多

4、Sort：Map Task階段進(jìn)行局部排序，Reduce Task階段進(jìn)行一次歸并排序

5、Reduce：將數(shù)據(jù)給reduce函數(shù)

6、Write：reduce函數(shù)將其計(jì)算的結(jié)果寫到HDFS上

?

深度解析的說：

MapTask階段

（1）Read階段：MapTask通過用戶編寫的RecordReader，從輸入InputSplit中解析出一個個key/value。?

（2）Map階段：該節(jié)點(diǎn)主要是將解析出的key/value交給用戶編寫map()函數(shù)處理，并產(chǎn)生一系列新的key/value。

（3）Collect收集階段：在用戶編寫map()函數(shù)中，當(dāng)數(shù)據(jù)處理完成后，一般會調(diào)用 OutputCollector.collect()輸出結(jié)果。在該函數(shù)內(nèi)部，它會將生成的key/value分區(qū)（調(diào)用 Partitioner），并寫入一個環(huán)形內(nèi)存緩沖區(qū)中。?

（4）Spill階段：即“溢寫”，當(dāng)環(huán)形緩沖區(qū)滿后，MapReduce 會將數(shù)據(jù)寫到本地磁盤上，生成一個臨時文件。需要注意的是，將數(shù)據(jù)寫入本地磁盤之前，先要對數(shù)據(jù)進(jìn)行一次本地排序，并在必要時對數(shù)據(jù)進(jìn)行合并、壓縮等操作。

?

溢寫階段詳情：

步驟1：利用快速排序算法對緩存區(qū)內(nèi)的數(shù)據(jù)進(jìn)行排序，排序方式是，先按照分區(qū)編號partition進(jìn)行排序，然后按照key進(jìn)行排序。這樣，經(jīng)過排序后，數(shù)據(jù)以分區(qū)為單位聚集在一起，且同一分區(qū)內(nèi)所有數(shù)據(jù)按照key有序。?

步驟2：按照分區(qū)編號由小到大依次將每個分區(qū)中的數(shù)據(jù)寫入任務(wù)工作目錄下的臨時文件output/spillN.out（N表示當(dāng)前溢寫次數(shù)）中。如果用戶設(shè)置了Combiner，則寫入文件之前，對每個分區(qū)中的數(shù)據(jù)進(jìn)行一次聚集操作。?

步驟3：將分區(qū)數(shù)據(jù)的元信息寫到內(nèi)存索引數(shù)據(jù)結(jié)構(gòu)SpillRecord中，其中每個分區(qū)的元信息包括在臨時文件中的偏移量、壓縮前數(shù)據(jù)大小和壓縮后數(shù)據(jù)大小。如果當(dāng)前內(nèi)存索引大小超過1MB，則將內(nèi)存索引寫到文件output/spillN.out.index中。?

（5）Combine階段：當(dāng)所有數(shù)據(jù)處理完成后，MapTask對所有臨時文件進(jìn)行一次合并，以確保最終只會生成一個數(shù)據(jù)文件。當(dāng)所有數(shù)據(jù)處理完后，MapTask會將所有臨時文件合并成一個大文件，并保存到文件output/file.out中，同時生成相應(yīng)的索引文件output/file.out.index。在進(jìn)行文件合并過程中，MapTask以分區(qū)為單位進(jìn)行合并。對于某個分區(qū)，它將采用多輪遞歸合并的方式。每輪合并io.sort.factor（默認(rèn)100）個文件，并將產(chǎn)生的文件重新加入待合并列表中，對文件排序后，重復(fù)以上過程，直到最終得到一個大文件。讓每個MapTask最終只生成一個數(shù)據(jù)文件，可避免同時打開大量文件和同時讀取大量小文件產(chǎn)生的隨機(jī)讀取帶來的開銷。信息包括在臨時文件中的偏移量、壓縮前數(shù)據(jù)大小和壓縮后數(shù)據(jù)大小。如果當(dāng)前內(nèi)存索引大小超過1MB，則將內(nèi)存索引寫到文件output/spillN.out.index中。

?

Shuffle階段(map端的輸出到reduce的輸入)

1）maptask收集我們的map()方法輸出的kv對，放到內(nèi)存緩沖區(qū)中

2）從內(nèi)存緩沖區(qū)不斷溢出本地磁盤文件，可能會溢出多個文件?

3）多個溢出文件會被合并成大的溢出文件?

4）在溢出過程中，及合并的過程中，都要調(diào)用partitioner進(jìn)行分區(qū)和針對key進(jìn)行排序?

5）reducetask根據(jù)自己的分區(qū)號，去各個maptask機(jī)器上取相應(yīng)的結(jié)果分區(qū)數(shù)據(jù)?

6）reducetask會取到同一個分區(qū)的來自不同maptask的結(jié)果文件，reducetask會將這些文件再進(jìn)行合并（歸并排序）?

7）合并成大文件后，shuffle的過程也就結(jié)束了，后面進(jìn)入reducetask的邏輯運(yùn)算過程（從文件中取出一個一個的鍵值對group，調(diào)用用戶自定義的reduce()方法）?

3）注意Shuffle中的緩沖區(qū)大小會影響到mapreduce程序的執(zhí)行效率，原則上說，緩沖區(qū)越大，磁盤io的次數(shù)越少，執(zhí)行速度就越快。緩沖區(qū)的大小可以通過參數(shù)調(diào)整，參數(shù)：io.sort.mb默認(rèn)100M。

?

ReduceTask階段

（1）Copy階段：ReduceTask從各個MapTask上遠(yuǎn)程拷貝一片數(shù)據(jù)，并針對某一片數(shù)據(jù)，如果其大小超過一定閾值，則寫到磁盤上，否則直接放到內(nèi)存中。?

（2）Merge階段：在遠(yuǎn)程拷貝數(shù)據(jù)的同時，ReduceTask啟動了兩個后臺線程對內(nèi)存和磁盤上的文件進(jìn)行合并，以防止內(nèi)存使用過多或磁盤上文件過多。?

（3）Sort階段：按照MapReduce語義，用戶編寫reduce()函數(shù)輸入數(shù)據(jù)是按key進(jìn)行聚集的一組數(shù)據(jù)。為了將key相同的數(shù)據(jù)聚在一起，Hadoop采用了基于排序的策略。由于各個MapTask已經(jīng)實(shí)現(xiàn)對自己的處理結(jié)果進(jìn)行了局部排序，因此，ReduceTask只需對所有數(shù)據(jù)進(jìn)行一次歸并排序即可。?

（4）Reduce階段：reduce()函數(shù)將計(jì)算結(jié)果寫到HDFS上。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
常用宏定義
下一篇新聞：
Windows 10 秋季創(chuàng)意者更新版正式版開放下載

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<bdo id="ez4z5"></bdo>

<blockquote id="ez4z5"><samp id="ez4z5"></samp></blockquote>