<samp id="liesd"><sup id="liesd"><dl id="liesd"></dl></sup></samp>

<table id="liesd"><legend id="liesd"><ins id="liesd"></ins></legend></table>

<tr id="liesd"><li id="liesd"></li></tr>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

ort shuffle有什么用

發(fā)布時間：2021-12-16 17:04:14 來源：億速云閱讀：154 作者：iii 欄目：云計算

本篇內(nèi)容介紹了“ort shuffle有什么用”的有關(guān)知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細閱讀，能夠?qū)W有所成！

spark實現(xiàn)了多種shuffle方法，通過 spark.shuffle.manager來確定。暫時總共有三種：hash shuffle、sort shuffle和tungsten-sort shuffle，從1.2.0開始默認為sort shuffle。

從1.2.0開始默認為sort shuffle(spark.shuffle.manager = sort)，實現(xiàn)邏輯類似于Hadoop MapReduce，Hash Shuffle每一個reducers產(chǎn)生一個文件，但是Sort Shuffle只是產(chǎn)生一個按照reducer id排序可索引的文件，這樣，只需獲取有關(guān)文件中的相關(guān)數(shù)據(jù)塊的位置信息，并fseek就可以讀取指定reducer的數(shù)據(jù)。但對于rueducer數(shù)比較少的情況，Hash Shuffle明顯要比Sort Shuffle快，因此Sort Shuffle有個“fallback”計劃，對于reducers數(shù)少于 “spark.shuffle.sort.bypassMergeThreshold” (200 by default)，我們使用fallback計劃，hashing相關(guān)數(shù)據(jù)到分開的文件，然后合并這些文件為一個，具體實現(xiàn)為BypassMergeSortShuffleWriter。

ort shuffle有什么用

在map進行排序，在reduce端應(yīng)用Timsort[1]進行合并。map端是否容許spill，通過spark.shuffle.spill來設(shè)置，默認是true。設(shè)置為false，如果沒有足夠的內(nèi)存來存儲map的輸出，那么就會導(dǎo)致OOM錯誤，因此要慎用。

用于存儲map輸出的內(nèi)存為：“JVM Heap Size” \* spark.shuffle.memoryFraction \* spark.shuffle.safetyFraction，默認為“JVM Heap Size” \* 0.2 \* 0.8 = “JVM Heap Size” \* 0.16。如果你在同一個執(zhí)行程序中運行多個線程（設(shè)定spark.executor.cores/ spark.task.cpus超過1）,每個map任務(wù)存儲的空間為“JVM Heap Size” * spark.shuffle.memoryFraction * spark.shuffle.safetyFraction / spark.executor.cores * spark.task.cpus, 默認2個cores，那么為0.08 * “JVM Heap Size”。 spark使用AppendOnlyMap存儲map輸出的數(shù)據(jù)，利用開源hash函數(shù)MurmurHash4和平方探測法把key和value保存在相同的array中。這種保存方法可以是spark進行combine。如果spill為true，會在spill前sort。

Sort Shuffle內(nèi)存的源碼級別更詳細說明可以參考[4],讀寫過程可以參考[5]

##優(yōu)點

map創(chuàng)建文件量較少
少量的IO隨機操作，大部分是順序讀寫

##缺點

要比Hash Shuffle要慢，需要自己通過spark.shuffle.sort.bypassMergeThreshold來設(shè)置合適的值。
如果使用SSD盤存儲shuffle數(shù)據(jù)，那么Hash Shuffle可能更合適。

“ort shuffle有什么用”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
html5中p指的是什么意思
下一篇新聞：
怎么解析Python中的Dict

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<li id="xtsxc"></li>

<video id="xtsxc"><sup id="xtsxc"></sup></video>