Hadoop的ResourceManager怎么恢復

發(fā)布時間：2021-12-04 15:53:04 來源：億速云閱讀：322 作者：iii 欄目：大數(shù)據(jù)

本篇內(nèi)容介紹了“Hadoop的ResourceManager怎么恢復”的有關(guān)知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠?qū)W有所成！

ResourceManager 的恢復

當ResourceManager 掛掉重啟后，為了使之前的任務(wù)能夠繼續(xù)執(zhí)行，而不是重新執(zhí)行。勢必需要yarn記錄應(yīng)用運行過程的狀態(tài)。

運行狀態(tài)可以存儲在

ZooKeeper
FileSystem 比如hdfs
LevelDB

使用zookeeper做為狀態(tài)存儲的典型配置為

<property>
   <description>Enable RM to recover state after starting. If true, then
   yarn.resourcemanager.store.class must be specified</description>
   <name>yarn.resourcemanager.recovery.enabled</name>
   <value>true</value>
 </property>

 <property>
   <description>The class to use as the persistent store.</description>
   <name>yarn.resourcemanager.store.class</name>
   <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
 </property>

 <property>
   <description>Comma separated list of Host:Port pairs. Each corresponds to a ZooKeeper server
   (e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002") to be used by the RM for storing RM state.
   This must be supplied when using org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
   as the value for yarn.resourcemanager.store.class</description>
   <name>hadoop.zk.address</name>
   <value>127.0.0.1:2181</value>
 </property>

Resource Manager的HA

基于zookeeper實現(xiàn)active 和standby 的多個ResourceManager之間的自動故障切換。 active Resource Manager只能有一個，而standby 可以有多個

Hadoop的ResourceManager怎么恢復

為了防止故障自動轉(zhuǎn)移時的腦裂，推薦上面的ResourceManager recovery 狀態(tài)存儲使用也使用zk。同時關(guān)閉zk的zookeeper.DigestAuthenticationProvider.superDigest配置，避免zk的管理員訪問到Y(jié)ARN application/user credential information

一個demo配置如下

<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster1</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>master1</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>master2</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm1</name>
  <value>master1:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm2</name>
  <value>master2:8088</value>
</property>
<property>
  <name>hadoop.zk.address</name>
  <value>zk1:2181,zk2:2181,zk3:2181</value>
</property>

文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

YARN Node Labels

基于Label，將一個Yarn管理的集群，劃分為多個分區(qū)。不同的queue可以使用不同的分區(qū)。

文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeLabel.html

YARN Node Attributes

對Node Manager定義一組屬性值，使得應(yīng)用程序能夠基于這些屬性值，來選擇Node Mananger，并將其應(yīng)用的container部署到上面

文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeAttributes.html

Web Application Proxy

集群中運行應(yīng)用的application master 需要提供一些web ui給ResourceManager，以便其統(tǒng)一管理。但集群中可能有惡意應(yīng)用，提供了具有安全風險的web ui. 為了降低安全風險，yarn 使用一個名為Web Application Proxy的應(yīng)用。擁有接管Application Master提供給的web ui鏈接，將請求中的cookies 進行剝離，同時將不安全的鏈接標記出來。

默認情況下Web Application Proxy 是作為Resource Manager的一部分啟動。不需要單獨配置。如果要單獨部署，需要額外配置。文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/WebApplicationProxy.html

YARN Timeline Server

能夠存儲和查詢當前、歷史的應(yīng)用執(zhí)行信息。TimeLine Server中的存儲數(shù)據(jù)結(jié)構(gòu)為

Hadoop的ResourceManager怎么恢復

timeline Domain 對應(yīng)一個用戶的應(yīng)用列表
Time Entity 定義一個應(yīng)用
Timeline Events定義該應(yīng)用的執(zhí)行事件，比如應(yīng)用啟動，應(yīng)用執(zhí)行，應(yīng)用結(jié)束等

Timeline Server分為V1和V2版本，V1版本將數(shù)據(jù)存儲在levelDb中，v2版將數(shù)據(jù)存儲在hbase中

文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/TimelineServer.html

基于yarn的API，編寫一個可以部署到y(tǒng)arn集群執(zhí)行的應(yīng)用

https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html

應(yīng)用安全

yarn為了保證應(yīng)用的運行安全，有一系列的機制先限制應(yīng)用的權(quán)限之類的

文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnApplicationSecurity.html

Node Manager

前面說了ResourceMananger 需要重啟后，能從原地繼續(xù)執(zhí)行任務(wù)。Node Mananger在掛掉重啟后，也需要有相應(yīng)的恢復特性。其具體的配置，參見文檔。

文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeManager.html

Health Checker Service

Node Mananger的健康檢查服務(wù)，其提供兩種健康檢查器

Disk Checker 檢查node manager的磁盤健康狀況，并基于此上報給Resource Manager
External Health Script 管理員可以指定一些自定義的健康檢查腳本，供Node Manager的 Health Checker Service調(diào)用

CGroups with YARN

yarn使用linux的CGroups實現(xiàn)資源隔離和控制，相關(guān)配置見文檔： https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html

Secure Containers

將各應(yīng)用container 限制在提交他的用戶權(quán)限下，不同用戶提交的應(yīng)用container 不能訪問彼此的文件、文件夾。具體配置文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/SecureContainer.html

移除節(jié)點

有兩種方式：

normal 直接把要移除的節(jié)點從集群中摘除
Gracefully 等待節(jié)點上的任務(wù)執(zhí)行完畢后摘除文檔：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html

Opportunistic Containers 機會主義容器

yarn一般只在對應(yīng)的Node manager有資源時，才會將一個任務(wù)對應(yīng)的container 分配到該NM. 但開啟Opportunistic Containers后，即便對應(yīng)的node manager沒有資源，也會將contaienr 分配到NM，等到NM空閑時，馬上開始執(zhí)行，是為機會主義者。這在一定程度能提高集群的資源利用率。文檔：

配置部署

部署用戶。按照Hadoop官方的建議。yarn相關(guān)組件，使用yarn用來管理 Hadoop的ResourceManager怎么恢復

基本部署方式

啟動RM

$HADOOP_HOME/bin/yarn --daemon start resourcemanager

啟動NM

$HADOOP_HOME/bin/yarn --daemon start nodemanager

啟動proxyServer

$HADOOP_HOME/bin/yarn --daemon start proxyserver

切換到mapred用戶下，啟動historyserver

$HADOOP_HOME/bin/mapred --daemon start historyserver

高效能部署

yarn本身由多個組件組成，且有些組件還有多個節(jié)點，比如nodemanager，一次啟動去到多個機器上執(zhí)行是件很繁瑣的事情。hadoop發(fā)型包，提供了sbin/start-yarn.sh 和 sbin/stop-yarn.sh兩個腳本去啟停yarn相關(guān)的所有組件：比如nodemanager、resourcemanager、proxyserver 。

他實現(xiàn)的原理是，基于hadoop安裝包中的/opt/hadoop-3.2.1/etc/hadoop/workers文件，去登錄到相應(yīng)的機器，完成組件的執(zhí)行。workers中定義了所有datanode的機器host。登錄方式是基于SSH的免密登錄方式，具體配置參見：https://www.cnblogs.com/niceshot/p/13019823.html

如果發(fā)起腳本執(zhí)行的機器，本身也需要部署一個nodemanager。那么他需要配置自己對自己的SSH免密登錄

通yarn-site.xml ，腳本已經(jīng)可以知道resource manager的組件機器。所以workers文件中，只需要設(shè)置所有的node manager的機器host

一般yarn的node manager會跟hdfs的 datanode部署在一起，所以hdfs的批量啟停，也是用的這個workers文件。

但上面說的$HADOOP_HOME/bin/mapred --daemon start historyserver不屬于，只屬于mapreduce，所以還是要單獨啟停，通過yarn的相關(guān)腳本是不能管理它的。之所以將這個historyserver放到y(tǒng)arn的文檔中來寫，是為了偷懶，沒單獨搞一個mr的wend

一些錯誤

錯誤1

在yarn的管理界面，發(fā)現(xiàn)提交的sql，執(zhí)行有以下錯誤

yarn錯誤
錯誤: 找不到或無法加載主類 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

問題原因是，yarn的類路徑有問題。通過hadoop官方的yarn-default.xml文件得知，yarn加載的類路徑配置yarn.application.classpath的默認值為

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/* For Windows: %HADOOP_CONF_DIR%, %HADOOP_COMMON_HOME%/share/hadoop/common/*, %HADOOP_COMMON_HOME%/share/hadoop/common/lib/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/lib/*

路徑中的許多環(huán)境變量都沒有配置。解決辦法有2

將對應(yīng)的環(huán)境變量配置上，以使yarn的默認配置能夠正常加載上。推薦這種
使用hadoop classpath命令，看下hadoop使用的類路徑都有哪些，將其拷貝出來，在yarn-site.xml中配置，舉例

<property> <name>yarn.application.classpath</name> <value>/opt/hadoop-3.2.1/etc/hadoop:/opt/hadoop-3.2.1/share/hadoop/common/lib/*:/opt/hadoop-3.2.1/share/hadoop/common/*:/opt/hadoop-3.2.1/share/hadoop/hdfs:/opt/hadoop-3.2.1/share/hadoop/hdfs/lib/*:/opt/hadoop-3.2.1/share/hadoop/hdfs/*:/opt/hadoop-3.2.1/share/hadoop/mapreduce/lib/*:/opt/hadoop-3.2.1/share/hadoop/mapreduce/*:/opt/hadoop-3.2.1/share/hadoop/yarn:/opt/hadoop-3.2.1/share/hadoop/yarn/lib/*:/opt/hadoop-3.2.1/share/hadoop/yarn/*</value> </property> ``` ### 錯誤2 通過historyserver，在Mapreduce階段，看到異常

org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at

原因，這是因為mr使用了mapreduce_shuffle輔助服務(wù)，但yarn沒有配置。解決辦法，同樣是修改yarn-site.xml，在其中加入以下配置

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
	<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

錯誤3

ontainer [pid=26153,containerID=container_e42_1594730232763_0121_02_000006] is running 598260224B beyond the 'VIRTUAL' memory limit. Current usage: 297.5 MB of 1 GB physical memory used; 2.7 GB of 2.1 GB virtual memory used. Killing container.
Dump of the process-tree for container_e42_1594730232763_0121_02_000006 :
        |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE

錯誤的意思是，yarn分配給container的虛擬內(nèi)存，超過了限制。原因是，一個container使用的內(nèi)存，除了物理內(nèi)存，還可以使用操作系統(tǒng)的虛擬內(nèi)存，也即硬盤。

container分為兩種類型，map 和reduce。決定map的container的物理內(nèi)存大小為mapreduce.map.memory.mb 決定reduce的物理內(nèi)存為mapreduce.reduce.memory.mb 決定map container所能申請的虛擬內(nèi)存大小的公式是：mapreduce.map.memory.mb * yarn.nodemanager.vmem-pmem-ratio 決定reduce container所能申請的虛擬內(nèi)存帶下是公式是：mapreduce.reduce.memory.mb * yarn.nodemanager.vmem-pmem-ratio。

所以要解決虛擬內(nèi)存超限有兩個辦法：

增大container的物理內(nèi)存大小。即增大mapreduce.map.memory.mb 或 mapreduce.reduce.memory.mb
增大虛擬內(nèi)存申請的比率yarn.nodemanager.vmem-pmem-ratio

“Hadoop的ResourceManager怎么恢復”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

向AI問一下細節(jié)

Hadoop的ResourceManager怎么恢復

ResourceManager 的恢復

Resource Manager的HA

YARN Node Labels

YARN Node Attributes

Web Application Proxy

YARN Timeline Server

基于yarn的API，編寫一個可以部署到y(tǒng)arn集群執(zhí)行的應(yīng)用

應(yīng)用安全

Node Manager

Health Checker Service

CGroups with YARN

Secure Containers

移除節(jié)點

Opportunistic Containers 機會主義容器

配置部署

基本部署方式

高效能部署

一些錯誤

錯誤1

錯誤3

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽

基于yarn的API，編寫一個可以部署到y(tǒng)arn集群執(zhí)行的應(yīng)用