溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hadoop運(yùn)維記錄系列(二十三)

發(fā)布時間:2020-07-24 11:29:01 來源:網(wǎng)絡(luò) 閱讀:5117 作者:Slaytanic 欄目:大數(shù)據(jù)

最近做集群機(jī)房遷移,在舊機(jī)房和新機(jī)房之間接了根專線,做集群不停機(jī)搬遷,也就是跨機(jī)房,同時要新加百多臺服務(wù)器,遇到幾個問題,記錄一下。

舊集群的機(jī)器是centos 6, 新機(jī)房加的機(jī)器是centos 7。


一、丟包問題

在跨機(jī)房的時候,datanode顯示很多Slow BlockReceiver的日志

WARN  org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write packet to mirror took 630ms(threshold=300ms)

經(jīng)查,這個報錯的主要原因出在網(wǎng)卡的MTU設(shè)置上,hadoop建議將網(wǎng)卡mtu值從1500設(shè)置為9000,以支持接收jumbo frame。調(diào)整mtu值后,偶爾還會有幾條,但頻率小多了。而且我記得這個得交換機(jī)一起配合修改,光改服務(wù)器不好使。


二、centos7 執(zhí)行df命令掛起,無法退出

在cent7下面執(zhí)行df命令會死在那里,用ctrl-c也沒法退出。由于我們的nodemanager健康檢查腳本里面包含df命令,所以,nm的健康檢查會卡死,最后把所有CPU全吃光,導(dǎo)致計(jì)算任務(wù)無法正常進(jìn)行。使用kill命令也無法殺掉僵死的df進(jìn)程,使用strace跟蹤df命令也無法退出,必須用kill -9 殺掉strace才可以。

stat("/sys/fs/cgroup/memory", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/kernel/config", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/", {st_mode=S_IFDIR|0555, st_size=4096, ...}) = 0
stat("/proc/sys/fs/binfmt_misc",

最后df就是卡死在 binfmt_misc 這了。

經(jīng)查,這是centos7 systemd的一個bug,1534701,我們觸發(fā)這個bug的原因應(yīng)該是在執(zhí)行hadoop安裝的時候,作為依賴更新了systemd相關(guān)的組件,但是沒有進(jìn)行重啟,新的systemd沒生效,所以重啟之后,故障解決。


三、專線流量大,導(dǎo)致跑任務(wù)慢

使用tcpdump及nmap綜合分析,發(fā)現(xiàn)大量的ARP連接,應(yīng)是B類地址沒有做VLAN路由,跨機(jī)房集群相互之間做ARP通告引發(fā)廣播風(fēng)暴。后續(xù)由運(yùn)維重新規(guī)劃vlan解決。


這些故障基本都不是hadoop本身的問題,就像上一篇記錄里面,幾百臺機(jī)器其中一臺的網(wǎng)卡變成了10Mbps,結(jié)果拖慢了整個集群的運(yùn)行速度。這些問題都需要hadoop運(yùn)維來發(fā)現(xiàn),排查,通知其他部門,所以hadoop運(yùn)維應(yīng)該是在數(shù)據(jù)研發(fā)部門和運(yùn)維部門之間的橋梁,能夠快速定位hadoop,數(shù)據(jù)應(yīng)用,操作系統(tǒng),硬件之間哪里出現(xiàn)了問題,然后安排各相關(guān)人員解決,越快速定位,越能節(jié)省成本,時間成本和金錢成本都是成本,比如我司為了跨集群拉的專線據(jù)說一天一萬,客戶限定時間內(nèi)跑不出數(shù)據(jù)報告丟的錢更多。


等跨機(jī)房遷移弄完了,可以專門寫一寫。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI