溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

hash shuffle發(fā)展階段有哪些

發(fā)布時間:2021-12-16 17:03:38 來源:億速云 閱讀:146 作者:iii 欄目:云計算

這篇文章主要介紹“hash shuffle發(fā)展階段有哪些”,在日常操作中,相信很多人在hash shuffle發(fā)展階段有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”hash shuffle發(fā)展階段有哪些”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

spark實現(xiàn)了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-sort shuffle,從1.2.0開始默認為sort shuffle。

spark在1.2前默認為hash shuffle(spark.shuffle.manager = hash),但hash shuffle也經(jīng)歷了兩個發(fā)展階段。

 ##第一階段

hash shuffle發(fā)展階段有哪些

上圖有 4 個 ShuffleMapTask 要在同一個 worker node 上運行,CPU core 數(shù)為 2,可以同時運行兩個 task。每個 task 的執(zhí)行結(jié)果(該 stage 的 finalRDD 中某個 partition 包含的 records)被逐一寫到本地磁盤上。每個 task 包含 R 個緩沖區(qū),R = reducer 個數(shù)(也就是下一個 stage 中 task 的個數(shù)),緩沖區(qū)被稱為 bucket,其大小為spark.shuffle.file.buffer.kb ,默認是 32KB(Spark 1.1 版本以前是 100KB)。

##第二階段 這樣的實現(xiàn)很簡單,但有幾個問題:

1 產(chǎn)生的 FileSegment 過多。每個 ShuffleMapTask 產(chǎn)生 R(reducer 個數(shù))個 FileSegment,M 個 ShuffleMapTask 就會產(chǎn)生 M * R 個文件。一般 Spark job 的 M 和 R 都很大,因此磁盤上會存在大量的數(shù)據(jù)文件。

2 緩沖區(qū)占用內(nèi)存空間大。每個 ShuffleMapTask 需要開 R 個 bucket,M 個 ShuffleMapTask 就會產(chǎn)生 M * R 個 bucket。雖然一個 ShuffleMapTask 結(jié)束后,對應(yīng)的緩沖區(qū)可以被回收,但一個 worker node 上同時存在的 bucket 個數(shù)可以達到 cores R 個(一般 worker 同時可以運行 cores 個 ShuffleMapTask),占用的內(nèi)存空間也就達到了cores * R * 32 KB。對于 8 核 1000 個 reducer 來說,占用內(nèi)存就是 256MB。

spark.shuffle.consolidateFiles默認為false,如果為true,shuffleMapTask輸出文件可以被合并。如圖

hash shuffle發(fā)展階段有哪些

可以明顯看出,在一個 core 上連續(xù)執(zhí)行的 ShuffleMapTasks 可以共用一個輸出文件 ShuffleFile。先執(zhí)行完的 ShuffleMapTask 形成 ShuffleBlock i,后執(zhí)行的 ShuffleMapTask 可以將輸出數(shù)據(jù)直接追加到 ShuffleBlock i 后面,形成 ShuffleBlock i',每個 ShuffleBlock 被稱為 FileSegment。下一個 stage 的 reducer 只需要 fetch 整個 ShuffleFile 就行了。這樣,每個 worker 持有的文件數(shù)降為 cores * R但是緩存空間占用大還沒有解決。

到此,關(guān)于“hash shuffle發(fā)展階段有哪些”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI