您好,登錄后才能下訂單哦!
報錯:
master.HMaster: Failed to become active master
環(huán)境:
OS: CENTOS6.5
Hadoop: 2.7.1
Hbase: 1.0.4
ZooKeeper: 3.4.6
動作:
Hbase 升級版本1.0.4 --> 1.2.4
下午接到老朋友電話,說Hbase Master開不起來,因為是生產環(huán)境,所以異常著急。事發(fā)在凌晨4點多,有一個服務器的硬盤壞了,導致該服務器的Hadoop服務異常了,Hbase也受到了影響,應該是程式正在寫hbase的進程受到影響,隨之Hbase集群掛掉了。管理員接到產線電話后,×××連接到服務器重啟服務,hadoop開啟是正常的,可是Hbase的Master一直無法重啟。并報錯,如下:
參考了很多很多的文章,一直無法解決此問題,一般Hbase的問題解決就是2個思路,要么內存分配有問題,要么就是參數異常,這次顯然并不簡單,我們有懷疑過是不是Zookeeper異常,導致一直無法獲得ClusterID,可是如果Zookeeper異常的話hadoop不可能開得起來,所以排除Zookeeper異常造成。
最后看到google上有提到,是bug的影響。最終,定出2種方案,要么升級Hbase版本,要么數據清除重構。相對之下,更新Hbase版本比較快和安全,因為Hbase的數據是存儲在Hadoop里的,Hadoop的數據沒有問題,所以升級Hbase不會對Hadoop的數據產生影響。
由于接近吃飯時間了,我就去外面打個飯,還沒有打包完,就接到好消息,說數據庫集群開起來了,而且數據沒有丟,一切正常。
整個解決過程接近4個小時,花了很多時間去研究問題,也嘗試了很多的方法,最終要升級數據庫集群版本,這還是第一次。Bug這種東西,不會經常遇到,可是遇到的時候就是最郁悶的時候,要么繞過,要么迎面解決。這次我們是迎面解決了問題。Yeah.
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。