您好,登錄后才能下訂單哦!
在MapReduce的各階段過程中,根據(jù)場景開啟不同類型的壓縮,可以有效提升Job的處理時間;
MR使用壓縮的各個階段:
? ? ??壓縮可以在 MapReduce 作用的任意階段啟用,通過壓縮可以有效降低Job的處理時間;
????
????從上圖可以總結(jié)為如下內(nèi)容:
????1.從原始數(shù)據(jù)到Map階段;需要可切分的Splitable,以便于啟動多個線程加速任務(wù)
????2.Map階段落地過程;因?yàn)樾枰R上進(jìn)行Reduce,所以講求的是Speed,所以越快越好
????3.Reduce階段是分結(jié)果的:
????????歸檔需求:建議采用高壓縮比的工具,歸檔后節(jié)省磁盤空間;
????????作為下一個任務(wù)的輸入:要采用Splitable,如果不切片的話下一個MapReduce將只有一個task來處理任務(wù)
壓縮工具特點(diǎn)對比:
????
壓縮性能比較:
????
????通過上圖,可以根據(jù)不同的階段,選項(xiàng)不同的壓縮工具;
????在選項(xiàng)壓縮工具時,針對不同的階段,可以從3個方面選擇對應(yīng)壓縮工具:壓縮比、壓縮速度、是否分片
關(guān)于壓縮Hadoop引入的編碼器:
????
Hadoop關(guān)于壓縮參數(shù)的配置:
????
????core-site.xml相關(guān)的配置:io.compression.codecs -> 配置支持哪些壓縮格式,多種壓縮格式以逗號區(qū)分
????mapred-site.xml相關(guān)的配置:
????????reduce階段:
????????mapreduce.output.fileoutputformat.compress:是否開啟壓縮,true表示開啟,默認(rèn)為false
????????mapreduce.output.fileoutputformat.compress.codec:壓縮類型
? ? ? ? map階段:
????????mapreduce.map.output.compress:是否開啟壓縮,true表示開啟,默認(rèn)為false
????????mapreduce.map.output.compress.codec:壓縮類型
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。