溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Hbase master gone系統(tǒng)崩潰、遭遇hbase bug以及對(duì)應(yīng)的解決方案是什么

發(fā)布時(shí)間:2021-12-08 14:24:30 來(lái)源:億速云 閱讀:119 作者:柒染 欄目:互聯(lián)網(wǎng)科技

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Hbase  master  gone系統(tǒng)崩潰、遭遇hbase bug以及對(duì)應(yīng)的解決方案是什么 ,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

hbase   雙master  架構(gòu),  掛掉了. 

master  無(wú)法轉(zhuǎn)為active了 . 整個(gè)系統(tǒng)重啟多次 爆同樣的錯(cuò)誤. 

2019-05-21 14:50:55,189 WARN  [hadoop-8-52:16000.activeMasterManager] util.FSHDFSUtils: attempt=3 on file=hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000026244.log after 73101ms
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException): Failed to RECOVER_LEASE /hbase/MasterProcWALs/state-00000000000000026244.log for DFSClient_NONMAPREDUCE_-23587253_1 on 192.168.8.52 because the file is under construction but no leases found.

發(fā)現(xiàn) 
/hbase/MasterProcWALs
下面很多文件 

已經(jīng)很久了. 這個(gè)目錄下面一共有1800多個(gè)文件. 

這些文件都是0 長(zhǎng)度的. 

最后重啟hdfs . 

重啟zookeep 

然后重啟 hbase  問(wèn)題解決. 

但是奇怪的事情發(fā)生了.

上面目錄里的文件都消失了. 

系統(tǒng)啟動(dòng)后, 從日志里去找點(diǎn)東西出來(lái)看看:  2019-05-21 15:31:12,843 INFO  [hadoop-8-51:16000.activeMasterManager] procedure.ZKProcedureUtil: Clearing all procedure znodes: /hbase/online-snapshot/acquired /hbase/online-snapshot/reached /hbase/online-snapshot/abort
2019-05-21 15:31:12,852 INFO  [hadoop-8-51:16000.activeMasterManager] procedure.ZKProcedureUtil: Clearing all procedure znodes: /hbase/flush-table-proc/acquired /hbase/flush-table-proc/reached /hbase/flush-table-proc/abort
2019-05-21 15:31:12,879 INFO  [hadoop-8-51:16000.activeMasterManager] master.MasterCoprocessorHost: System coprocessor loading is enabled
2019-05-21 15:31:12,892 INFO  [hadoop-8-51:16000.activeMasterManager] procedure2.ProcedureExecutor: Starting procedure executor threads=25
2019-05-21 15:31:12,893 INFO  [hadoop-8-51:16000.activeMasterManager] wal.WALProcedureStore: Starting WAL Procedure Store lease recovery
2019-05-21 15:31:13,016 INFO  [hadoop-8-51:16000.activeMasterManager] util.FSHDFSUtils: Recovering lease on dfs file hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000026244.log

這些文件都被執(zhí)行了一次恢復(fù)操作. 

是什么問(wèn)題導(dǎo)致的這些標(biāo)志文件 , 

集群是主從兩個(gè)master 的. 一直都監(jiān)控運(yùn)行.  系統(tǒng)穩(wěn)定性良好. 

故障切換也沒(méi)有問(wèn)題. 

在網(wǎng)上找到了一篇 詳細(xì)的關(guān)于hdfs 文件恢復(fù)的帖子: 

https://blog.cloudera.com/blog/2015/02/understanding-hdfs-recovery-processes-part-1/  


master  在8.51上的時(shí)候, 發(fā)現(xiàn) 多了很多這個(gè)文件. 

然后web 頁(yè)面看到 很多 region in tracsaction  也就是spli 失效了. 

 然后手動(dòng)切換到 8.52   

這些文件就消失了. 

同時(shí)在 8.52 上 日志里看到了修復(fù)這些文件的日志. 

2019-05-23 09:43:48,423 INFO  [hadoop-8-52:16000.activeMasterManager] util.FSHDFSUtils: Recovering lease on dfs file hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000028058.log
2019-05-23 09:43:48,435 INFO  [hadoop-8-52:16000.activeMasterManager] util.FSHDFSUtils: recoverLease=true, attempt=0 on file=hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000028058.log after 12ms
2019-05-23 09:43:48,470 INFO  [hadoop-8-52:16000.activeMasterManager] util.FSHDFSUtils: Recovering lease on dfs file hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000028059.log
2019-05-23 09:43:48,471 INFO  [hadoop-8-52:16000.activeMasterManager] util.FSHDFSUtils: recoverLease=true, attempt=0 on file=hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000028059.log after 1ms
2019-05-23 09:43:48,493 INFO  [hadoop-8-52:16000.activeMasterManager] util.FSHDFSUtils: Recovering lease on dfs file hdfs://clusterpc/hbase/MasterProcWALs/state-00000000000000028060.log

也就是 只要適當(dāng)?shù)陌才?nbsp; master  的相互切換.  

其實(shí)既可以規(guī)避這個(gè)問(wèn)題. 

發(fā)現(xiàn)HBASE 的一個(gè)bug . https://issues.apache.org/jira/browse/HBASE-14712修復(fù)版本 1.2.0   . 
問(wèn)題出在 這個(gè)

 /hbase/MasterProcWALs   下面的日志太多了 . 

然后 在master 變成 active 之前,   需要回復(fù)這些文件. 

當(dāng)這些文件太多的時(shí)候,  在想namenode 請(qǐng)求信息的時(shí)候. 

導(dǎo)致 tcp  buffer 滿了.  

然后對(duì)namenode 形成了事實(shí)上的ddos 攻擊.  

然后master 超時(shí)下線了. 

所以啟動(dòng)不了. 

重啟 集群就可以了. 或者讓這個(gè)目錄下面的文件數(shù)不要太多. 

------------------   解決方案 ------------------

如果 暫時(shí)無(wú)法執(zhí)行版本升級(jí). 

那么 可以周期性的切換 master  來(lái)規(guī)避這個(gè)問(wèn)題. 

上述就是小編為大家分享的Hbase  master  gone系統(tǒng)崩潰、遭遇hbase bug以及對(duì)應(yīng)的解決方案是什么 了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI