溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Spark集群搭建的方法

發(fā)布時間：2022-02-18 16:14:11 來源：億速云閱讀：182 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹“Spark集群搭建的方法”，在日常操作中，相信很多人在Spark集群搭建的方法問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”Spark集群搭建的方法”的疑惑有所幫助！接下來，請跟著小編一起來學(xué)習(xí)吧！

spark是一個用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一計算引擎。適用于各種各樣原先需要多種不同的分布式平臺處理的場景，包括批處理、迭代計算、交互式查詢、流處理。通過統(tǒng)一的框架將各種處理流程整合到一起。

Spark集群搭建的方法

1 解壓縮文件

將spark-3.0.0-bin-hadoop3.2.tgz.tgz文件上傳到Linux并解壓縮在指定位置

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/module  
mv spark-3.0.0-bin-hadoop3.2 spark-standalone

2 修改配置文件

\1) 進入解壓縮后路徑的conf目錄，修改slaves.template文件名為slaves

mv slaves.template slaves

\2) 修改slaves文件，添加work節(jié)點

hadoop102hadoop103hadoop104

\3) 修改spark-env.sh.template文件名為spark-env.sh

mv spark-env.sh.template spark-env.sh

\4) 修改spark-env.sh文件，添加JAVA_HOME環(huán)境變量和集群對應(yīng)的master節(jié)點

export JAVA_HOME=/opt/module/jdk1.8.0_212
SPARK_MASTER_HOST=hadoop102SPARK_MASTER_PORT=7077

注意：7077端口，相當(dāng)于hadoop3.x內(nèi)部通信的8020端口，此處的端口需要確認(rèn)自己的虛擬機配置

\5) 分發(fā)spark-standalone目錄

xsync spark-standalone

3 啟動集群

\1) 執(zhí)行腳本命令：

sbin/start-all.sh

\2) 查看三臺服務(wù)器運行進程

================hadoop102================
3330 Jps
3238 Worker
3163 Master
================hadoop103================
2966 Jps
2908 Worker
================hadoop104================
2978 Worker
3036 Jps

\3) 查看Master資源監(jiān)控Web UI界面: http://hadoop102:8080

4 提交應(yīng)用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

–class表示要執(zhí)行程序的主類

–master spark://hadoop102:7077 獨立部署模式，連接到Spark集群

spark-examples_2.12-3.0.0.jar 運行類所在的jar包

數(shù)字10表示程序的入口參數(shù)，用于設(shè)定當(dāng)前應(yīng)用的任務(wù)數(shù)量

執(zhí)行任務(wù)時，會產(chǎn)生多個Java進程

Spark集群搭建的方法

大數(shù)據(jù)Spark運行環(huán)境：Standalone模式與配置詳解執(zhí)行任務(wù)時，默認(rèn)采用服務(wù)器集群節(jié)點的總核數(shù)，每個節(jié)點內(nèi)存1024M。

5 配置歷史服務(wù)

由于spark-shell停止掉后，集群監(jiān)控hadoop102:4040頁面就看不到歷史任務(wù)的運行情況，所以開發(fā)時都配置歷史服務(wù)器記錄任務(wù)運行情況。

\1) 修改spark-defaults.conf.template文件名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

\2) 修改spark-default.conf文件，配置日志存儲路徑

spark.eventLog.enabled          truespark.eventLog.dir               hdfs://hadoop102:8020/directory

注意：需要啟動hadoop集群，HDFS上的directory目錄需要提前存在。

sbin/start-dfs.sh
hadoop fs -mkdir /directory

\3) 修改spark-env.sh文件, 添加日志配置

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30"

注：寫成一行!!空格隔開!!!

參數(shù)1含義：WEB UI訪問的端口號為18080

參數(shù)2含義：指定歷史服務(wù)器日志存儲路徑

參數(shù)3含義：指定保存Application歷史記錄的個數(shù)，如果超過這個值，舊的應(yīng)用程序信息將被刪除，這個是內(nèi)存中的應(yīng)用數(shù)，而不是頁面上顯示的應(yīng)用數(shù)。

\4) 分發(fā)配置文件

xsync conf

\5) 重新啟動集群和歷史服務(wù)

sbin/start-all.shsbin/start-history-server.sh

\6) 重新執(zhí)行任務(wù)

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

\7) 查看歷史服務(wù)：http://hadoop102:18080

6 配置高可用(HA)

所謂的高可用是因為當(dāng)前集群中的Master節(jié)點只有一個，所以會存在單點故障問題。所以為了解決單點故障問題，需要在集群中配置多個Master節(jié)點，一旦處于活動狀態(tài)的Master發(fā)生故障時，由備用Master提供服務(wù)，保證作業(yè)可以繼續(xù)執(zhí)行。這里的高可用一般采用Zookeeper設(shè)置

集群規(guī)劃:

Spark集群搭建的方法

\1) 停止集群

sbin/stop-all.sh

\2) 啟動Zookeeper

\3) 修改spark-env.sh文件添加如下配置

注釋如下內(nèi)容：#SPARK_MASTER_HOST=hadoop102#SPARK_MASTER_PORT=7077添加如下內(nèi)容:#Master監(jiān)控頁面默認(rèn)訪問端口為8080，但是會和Zookeeper沖突，所以改成8989，也可以自定義，訪問UI監(jiān)控頁面時請注意SPARK_MASTER_WEBUI_PORT=8989export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 -Dspark.deploy.zookeeper.dir=/spark"注：寫成一行!!空格隔開!!!

\4) 分發(fā)配置文件

xsync conf/

\5) 啟動集群

sbin/start-all.sh

\6) 啟動hadoop103的單獨Master節(jié)點，此時hadoop103節(jié)點Master狀態(tài)處于備用狀態(tài)

[bigdata@hadoop103 spark-standalone]$ sbin/start-master.sh

\7) 提交應(yīng)用到高可用集群

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

\8) 停止hadoop102的Master資源監(jiān)控進程

\9) 查看hadoop103的Master 資源監(jiān)控Web UI，稍等一段時間后，hadoop103節(jié)點的Master狀態(tài)提升為活動狀態(tài)

到此，關(guān)于“Spark集群搭建的方法”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識，請繼續(xù)關(guān)注億速云網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Mariadb怎么實現(xiàn)多表連接查詢
下一篇新聞：
Redis發(fā)布/訂閱模式實例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<samp id="7cnw6"><del id="7cnw6"><kbd id="7cnw6"></kbd></del></samp>