您好,登錄后才能下訂單哦!
一、背景
目前namenode使用了ha的部署模式,但系統(tǒng)會(huì)經(jīng)常出現(xiàn)ha的自動(dòng)切換(namenode節(jié)點(diǎn)其實(shí)正常)。經(jīng)過(guò)調(diào)研發(fā)現(xiàn)可能的原因如下:
HealthMonitor check本地namenode的rpc端口時(shí)超時(shí),導(dǎo)致HealthMonitor認(rèn)為namenode掛掉。
zk上的session
timeout,導(dǎo)致丟掉當(dāng)前持有的active鎖(temp節(jié)點(diǎn)),引起自動(dòng)切換。
二、優(yōu)化
下面的優(yōu)化將針對(duì)1)和2)調(diào)整相應(yīng)的超時(shí)參數(shù),看是否起效。修改core-site.xml
<!-- HealthMonitor check namenode 的超時(shí)設(shè)置,默認(rèn)50000ms,改為5mins --> <property> <name>ha.health-monitor.rpc-timeout.ms</name> <value>300000</value> </property> <!-- zk failover的session 超時(shí)設(shè)置,默認(rèn)5000ms,改為3mins --> <property> <name>ha.zookeeper.session-timeout.ms</name> <value>180000</value> </property>
無(wú),不需要重啟hadoop,不會(huì)引起namenode切換
下面操作假設(shè)master1(active),master2(standby),只有按照該順序操作,才能實(shí)現(xiàn)namenode不切換
1)登陸master2(standby),注釋掉crontab中的restart-zkfc.sh任務(wù),
執(zhí)行
sbin/hadoop-daemon.sh stop zkfc
2)登陸master1(active),注釋掉crotab中的restart-zkfc.sh任務(wù),執(zhí)行
sbin/hadoop-daemon.sh stop zkfc
3)備份master1和master2的core-site.xml文件,將上述配置項(xiàng)加到master1和master2的core-site.xml配置文件中
4)登陸master1(active),執(zhí)行
sbin/hadoop-daemon.sh start zkfc
5)登陸master2(standby),執(zhí)行
sbin/hadoop-daemon.sh start zkfc
6)check
hadoop集群狀態(tài)
7)重要!!!
登錄master1和master2,恢復(fù)crontab中的restart-zkfc.sh任務(wù)
8)完成
1)需要先注釋掉機(jī)器上的crontab任務(wù)restart-zkfc.sh,否則該程序會(huì)自動(dòng)拉起zkfc進(jìn)程。導(dǎo)致namenode
active產(chǎn)生切換
2)任務(wù)完成后要恢復(fù)crontab中注釋掉的restart-zkfc.sh任務(wù)
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。