您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“怎么獲取CDSW上提交Spark作業(yè)的真實用戶”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學習一下“怎么獲取CDSW上提交Spark作業(yè)的真實用戶”這篇文章吧。
在一個CDSW環(huán)境中,由于其中一個租戶經(jīng)常提交大型Spark作業(yè)將YARN上租戶所在的資源池資源用到95%以上,從而影響到同一租戶下其他用戶提交作業(yè)的運行。這種情況下我們沒辦法直接找到這些大型作業(yè)的實際提交人,是因為我們在為CDSW做多租戶配置的時候會將登錄CDSW的某一批用戶統(tǒng)一綁定到同一個租戶下(這樣設(shè)計的目的主要是為了簡化YARN的租戶管理,而不用為每個用戶創(chuàng)建資源池隊列),所以導(dǎo)致在YARN的界面上看到的都是同一個租戶,而無法對應(yīng)到實際CDSW的用戶以及這個人提交的大型作業(yè)。本文主要描述通過修改Spark的配置來將作業(yè)的實際提交人的用戶名展示到Spark UI,非CDSW的YARN的多租戶管理也會碰到類似問題。
1.登錄CM界面,進入Spark2的實例界面,將Gateway角色分組,將CDSW所在主機的Gateway角色分到另外的組
2.進入Spark2的配置頁面,修改“spark-conf/spark-env.sh 的 Spark 客戶端高級配置代碼段(安全閥)”這一參數(shù),選擇編輯單個值,修改CDSW Gateway角色組的配置,填入如下內(nèi)容:
SPARK_CONF=/home/cdsw/spark-defaults.conf
if [ ! -f "$SPARK_CONF" ]; then
touch "$SPARK_CONF"
fi
str=`cat $SPARK_CONF | grep spark.app.real.username`
if [ -z "$str" ];then
echo -e "\nspark.app.real.username=${GIT_AUTHOR_NAME}" >> $SPARK_CONF
fi
3.修改完配置后點擊“保存更改”,根據(jù)提示重啟相關(guān)服務(wù)(此步驟會涉及到CDSW服務(wù)重啟)
1.使用user1用戶登錄CDSW
2.運行一個示例PySpark程序
3.在SparkUI上找到該作業(yè),并點擊“Environment”,可以看到參數(shù)列表中打印了提交Spark作業(yè)的用戶
以上是“怎么獲取CDSW上提交Spark作業(yè)的真實用戶”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。