溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何進(jìn)行Spark Job 動態(tài)分配資源的分析

發(fā)布時間:2021-12-16 18:42:07 來源:億速云 閱讀:175 作者:柒染 欄目:云計算

本篇文章為大家展示了如何進(jìn)行Spark Job 動態(tài)分配資源的分析,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。

項(xiàng)目中使用spark 自帶的thrift-server做hdfs數(shù)據(jù)查詢統(tǒng)計服務(wù)。當(dāng)數(shù)據(jù)過多時,thrift-server 需要分配大量的資源,當(dāng)不需要查詢時分配當(dāng)量的資源又顯得非常浪費(fèi),因此想到是否有可能動態(tài)分配資源。
(thrift-server也是一個job(yarn app),因此這種方法同樣適用于一般的spark job)。
目前動態(tài)資源分配只適合spark on yarn,配置方式如下。

yarn node manager 配置

修改所有節(jié)點(diǎn)yarn node-manager配置,在$HADOOP_HOME/etc/hadoop/yarn-site.xml中添加:

    <property><name>yarn.nodemanager.aux-services.spark_shuffle.class</name><value>org.apache.spark.network.yarn.YarnShuffleService</value></property><property><name>spark.shuffle.service.port</name><value>7337</value></property>

$SPARK_HOME/lib/spark-1.3.0-yarn-shuffle.jar copy到 $HADOOP_HOME/share/hadoop/yarn/lib 目錄下。

重啟yarn。

spark-default配置

修改 $SPARK_HOME/conf/spark-default.conf 文件,添加以下內(nèi)容:

spark.shuffle.service.enabled true
spark.shuffle.service.port 7337 spark.dynamicAllocation.enabled true
spark.dynamicAllocation.minExecutors 1spark.dynamicAllocation.maxExecutors 12spark.dynamicAllocation.schedulerBacklogTimeout 1spark.dynamicAllocation.sustainedSchedulerBacklogTimeout 5spark.dynamicAllocation.cachedExecutorIdleTimeout 60

驗(yàn)證

這里使用spark中內(nèi)置的thrift-server驗(yàn)證。
啟動thrift-server,只配置 --executor-memory 參數(shù)。
sbin/start-thriftserver.sh --master yarn-client --executor-memory 1g
通過application UI可看到executors分配,當(dāng)有并發(fā)查詢或者查詢壓力比較大時,會申請更多的executor,空閑時回收。

上述內(nèi)容就是如何進(jìn)行Spark Job 動態(tài)分配資源的分析,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI