您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“MapReduce執(zhí)行流程是怎樣的”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
MapReduce執(zhí)行流程圖
概述
MapReduce是一種分布式計(jì)算模型,由Google提出,主要用于搜索領(lǐng)域,解決海量數(shù)據(jù)的計(jì)算問(wèn)題。
MapReduce是分布式運(yùn)行的,由兩個(gè)階段組成:Map和Reduce,Map階段是一個(gè)獨(dú)立的程序,有很多個(gè)節(jié)點(diǎn)同時(shí)運(yùn)行,每個(gè)節(jié)點(diǎn)處理一部分?jǐn)?shù)據(jù)。
Reduce階段是一個(gè)獨(dú)立的程序,有很多個(gè)節(jié)點(diǎn)同時(shí)運(yùn)行,每個(gè)節(jié)點(diǎn)處理一部分?jǐn)?shù)據(jù)。
使用
MapReduce框架都有默認(rèn)實(shí)現(xiàn),用戶(hù)只需要覆蓋map()和reduce()兩個(gè)函數(shù),即可實(shí)現(xiàn)分布式計(jì)算,非常簡(jiǎn)單。
這兩個(gè)函數(shù)的形參和返回值都是,使用的時(shí)候一定要注意構(gòu)造。
一個(gè)文本(在HDFS上面保存,兩個(gè)block)中每一個(gè)單詞的出現(xiàn)的次數(shù): hello you hello marry hello me really ----->block-1 hello kate ready xiao wang hello tomcat ----->block-2
1.獲取每一個(gè)block塊中的文本,遍歷所有,回去其中的一行str
因?yàn)橐y(tǒng)計(jì)的是每一個(gè)單詞i的次數(shù),所以還需要直到文本中有哪些單詞,可以根據(jù)字符串的特點(diǎn),使用split()進(jìn)行切割。
String[] words=str.split("");
根據(jù)要求,需將每一個(gè)單詞i轉(zhuǎn)換為的形式,k為單詞本身,v為單詞出現(xiàn)的次數(shù)。
2.因?yàn)閙r的計(jì)算是分布式的 ,每一個(gè)map(稱(chēng)之為一個(gè)mapper task)計(jì)算其中的一個(gè)block塊數(shù)據(jù)。
map階段: 輸入<K1,V1> k1,偏移量,v1,當(dāng)前行文本內(nèi)容 map()函數(shù)操作 輸出<K2,V2> k2,具體單詞,v2,單詞對(duì)應(yīng)的統(tǒng)計(jì)項(xiàng),比如次數(shù) 輸出<K2,V2>
shuffle階段 研究后發(fā)現(xiàn),如果按照<key,1>這種方式向reduce輸出數(shù)據(jù)的時(shí)候,會(huì)有 大量的冗余數(shù)據(jù)。 比如map階段之后有5個(gè)hello,則輸出<hello,1>,<hello,1>,<hello,1>, <hello,1>,<hello,1>5次,實(shí)際上會(huì)對(duì)網(wǎng)絡(luò)造成一定的壓力,能不能對(duì) 這5個(gè)<hello,1>進(jìn)行一個(gè)進(jìn)入reduce之前的本地組合?比如成為 <hello,5>或者<hello,[1,1,1,1,1]>. 這個(gè)過(guò)程成為shuffle,洗牌重組階段,達(dá)到上述的結(jié)果,稱(chēng)之為規(guī)約。 >>>shuffle階段,也就是對(duì)map的輸出進(jìn)行重新洗牌: 分區(qū)、分組、排序 <K2,V2>...===><K2,V2s>
reduce階段 接收map的輸出結(jié)果<key,values> 對(duì)這個(gè)結(jié)果進(jìn)行匯總統(tǒng)計(jì),針對(duì)values,進(jìn)行簡(jiǎn)單的累加,計(jì)算得出key 對(duì)應(yīng)的次數(shù) reduce針對(duì)一個(gè)key調(diào)用一次reduce()函數(shù) =====>reduce 階段 輸入<K2,V2> K2,就是map的輸出的K2,V2s是map經(jīng)過(guò)shuffle之后的結(jié)果集 reduce()函數(shù)操作 轉(zhuǎn)化為<K3,V3>
經(jīng)過(guò)上述操作之后,系統(tǒng)會(huì)將計(jì)算結(jié)果輸出給用戶(hù),一般會(huì)先存儲(chǔ)(落地)到hdfs,然后反饋給用戶(hù)。
“MapReduce執(zhí)行流程是怎樣的”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。