<var id="gpmyn"><legend id="gpmyn"></legend></var>

<var id="gpmyn"></var>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何進行spark on yarn集群調(diào)優(yōu)

發(fā)布時間：2021-12-17 10:39:04 來源：億速云閱讀：171 作者：柒染欄目：大數(shù)據(jù)

今天就跟大家聊聊有關(guān)如何進行spark on yarn集群調(diào)優(yōu)，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

jar包管理：在spark-default.conf文件中指定Spark.YARN.jars在hdfs上的SPARK需要的jar包。否則每次提交application，spark會將driver端的SPARK_HOE下的jar.node, spark.locality.wait.pack包分發(fā)到各節(jié)點上。浪費磁盤資源和網(wǎng)絡(luò)資源。
yarn隊列資源不足導(dǎo)致的應(yīng)用運行失敗，這類問題主要針對提交作業(yè)的調(diào)優(yōu)：
1.在J2EE中間層，通過線程池技術(shù)提交作業(yè)，并設(shè)置線程池大小為1。
2.若只有一個應(yīng)用，可以將資源調(diào)整到最大
3.若有些spark應(yīng)用明顯的耗時，可以spark擁有的資源進行分類（耗時任務(wù)和快速任務(wù)），此時可以使用兩個線程池提交作業(yè)，每個線程池大小為1。
數(shù)據(jù)本地化：分布式存儲是大數(shù)據(jù)技術(shù)的核心，而為了提高大數(shù)據(jù)計算的效率，使計算靠近數(shù)據(jù)，減少移動大量數(shù)據(jù)而產(chǎn)生的網(wǎng)絡(luò)io和磁盤io。

spark中的本地級別有：PROCESS_LOCAL(進程本地化，效率最高), NODE_LOCAL（節(jié)點本地化）, PACK_LOCAL（機架本地化）, ANY, NO_PREF。在實際運行中我們希望的是大多數(shù)計算是進程本地化或節(jié)點本地化。
調(diào)優(yōu)方式：1. 優(yōu)化算法 2. 數(shù)據(jù)設(shè)置合理的副本數(shù) 3. 將常用的rdd設(shè)置緩存 4. 設(shè)置spark相關(guān)參數(shù)spark.locality.wait，spark.locality.wait.process, spark.locality.wait.node, spark.locality.wait.pack。在client模式下運行，觀察運行日志，使得大多數(shù)計算是PROCESS_LOCAL，同時application運行時間減少了，才是有效的優(yōu)化。為了提升數(shù)據(jù)計算本地化級別而犧牲application運行時間，是不可取得，這樣也會造成大量資源的閑置和較長的等待時間。

Executor經(jīng)常被kill掉，出現(xiàn)Container killed by YARN for exceeding memory limits，內(nèi)存被用完導(dǎo)致此類問題的發(fā)生：

移除rdd緩存
spark.storage.memoryFraction：spark數(shù)據(jù)緩存的的內(nèi)存占比，默認(rèn)0.6，即可以使用executor的60%內(nèi)存持久化數(shù)據(jù)。在緩存達到臨界值，數(shù)據(jù)可能不能緩存或?qū)懭氲酱疟P。當(dāng)executor經(jīng)常被kill的時候，應(yīng)該降低該值。
spark.yarn.Executor.memoryoverhead：該參數(shù)是在yarn模式下堆外內(nèi)存的調(diào)節(jié)，默認(rèn)情況下為是每一個executor的內(nèi)存大小的10%

YARN-Cluster模式下JVM棧內(nèi)存溢出：

JVM永久代PermGen設(shè)置 Spark.Driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=256M"(PermGen out of Memory error log)
在spark-sql中將復(fù)雜的sql語句簡化為多個簡單的sql進行處理(JVM stack overflow)

看完上述內(nèi)容，你們對如何進行spark on yarn集群調(diào)優(yōu)有進一步的了解嗎？如果還想了解更多知識或者相關(guān)內(nèi)容，請關(guān)注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么用Ansible部署Kubernetes集群到OpenStack
下一篇新聞：
python匿名函數(shù)怎么創(chuàng)建

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<nav id="3f1uu"></nav>