溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

磁盤陣列及MSCS的維護

發(fā)布時間:2020-07-03 14:48:40 來源:網(wǎng)絡 閱讀:1133 作者:guowang327 欄目:建站服務器

詳細描述本人在使用IBM磁盤陣列及MSCS的日常維護方法,并對可能出現(xiàn)的問題說明了解決方法。

 

一、 磁盤陣列的維護

 

基本知識

1、陣列的四種主要狀態(tài):

。Online(在線):Cluster中有控制權(quán)的節(jié)點的陣列狀態(tài)。

。Offline(脫機):Cluster中無控制權(quán)的節(jié)點的陣列狀態(tài),或有控制權(quán),但處于脫機狀態(tài)。

。Critical(臨界狀態(tài)):在Cluster中,處于此狀態(tài)的陣列不允許進行切換,必須在原來有控制權(quán)的機器上對陣列進行恢復,即進行Rebuild或其它恢復操作。

。Blocked(阻塞狀態(tài)):只出現(xiàn)在RAID0級別中。在Cluster中,處于此狀態(tài)的陣列不允許進行切換或讀寫操作,必須在原來有控制權(quán)的機器上對陣列進行恢復。

 

2、磁盤的兩種主要狀態(tài):

。Online(在線):硬盤燈為綠色或指示燈不亮(與陣列柜型號有關(guān))。此時陣列的狀態(tài)為Online。

。 Defunct(非在線、失效):硬盤燈為紅色。此時陣列的狀態(tài)為Offline、Critical或Blocked。

 

3、每次切換后,磁盤陣列都會進行一次數(shù)據(jù)的同步,此時硬盤燈出現(xiàn)有規(guī)則的閃爍,持續(xù)時間大概為2小時左右(與陣列容量有關(guān))。同時仍然可以進行其它操作,但是一定不能斷電或進行熱插拔操作,否則陣列信息將丟失。

 

4、硬盤的Firmware版本查看:

在ServeRaid Manager的物理磁盤組中,點擊要查看硬盤,屏幕上將顯示該硬盤的的Firmware版本號。

說明:版本要求為1.09(或S96E)以上。

 

5、陣列卡的Firmware及Bios版本查看:

在ServeRaid Manager中,點擊要查看的控制卡,屏幕上將顯示該陣列卡的Firmware 及Bios版本號。

說明:Firmware版本應為3.70以上、 Bios版本應為4.0以上。

 

現(xiàn)象觀察

      1、查看陣列柜的前面板的狀態(tài)燈提示

一般陣列柜中硬盤有兩個指示燈,一個為狀態(tài)燈(紅),一個為硬盤讀寫指示燈(綠)。

。若干磁盤的綠燈不規(guī)則閃爍表示為對該盤當前有讀寫操作(此時綠燈較亮),陣列為Online狀態(tài);

。全部磁盤的綠燈規(guī)則閃爍表示陣列作同步操作(此時綠燈較暗),陣列為Online狀態(tài);

。磁盤的綠燈全滅表示當前無操作,陣列處于Online狀態(tài);

。單個硬盤亮紅燈表示此盤狀態(tài)為DDD(不可用)或OffLine;

。某個硬盤綠燈及桔黃燈交替規(guī)則閃爍表示該盤正在Rebuild;

。兩個以上硬盤亮紅燈時表示陣列柜已壞,Cluster 必然當機。

 

2、通過ServeRaid Manager管理工具查看

在有控制權(quán)的節(jié)點啟動ServeRaid Manager。

??刂破?、邏輯盤處于OK狀態(tài);

。構(gòu)成陣列的物理硬盤處于Online狀態(tài)(如果存在Hot Spare盤,可看到本機的Hot Spare盤狀態(tài)為Hot Spare,另一節(jié)點的Hot Spare盤狀態(tài)為Ready);

。如果存在Hot Spare 硬盤,則在Hot Spare 菜單中可以找到該硬盤;

。如果某物理硬盤狀態(tài)為DDD,說明該盤已不可用,需要修復或替換;

。如果某塊物理硬盤狀態(tài)為Offline,表示該盤為脫機狀態(tài)(未損壞);

。在RAID 1、RAID 1E、RAID 5及RAID 5E 中如果某一硬盤狀態(tài)為DDD或Offline,則陣列或邏輯盤狀態(tài)為Critical,即臨界狀態(tài);

。在RAID 0 中,如果某一硬盤狀態(tài)為DDD或Offline,則陣列或邏輯盤狀態(tài)為Blocked,即阻塞狀態(tài),此時對硬盤不能進行任何操作,等待恢復完后,手工將Blocked 狀態(tài)設(shè)為UnBlocked狀態(tài);

 

說明:無控制權(quán)的節(jié)點陣列中的磁盤狀態(tài)為Defunct(Hot Spare盤為正常)。

 

磁盤異常狀態(tài)處理

要求主機對磁盤陣列擁有控制權(quán)。

1、單個磁盤DDD狀態(tài),此時禁止Cluster切換(可關(guān)閉備機)。

說明:DDD狀態(tài)并不一定表示硬盤物理故障,根據(jù)該盤的使用情況,有如下處理方法:

。該盤作為Array磁盤時,并且該節(jié)點存在Hot Spare盤 :當該盤失效時,Hot Spare 盤自動完成接管,陣列自動進入Rebuild狀態(tài),同時該盤狀態(tài)轉(zhuǎn)為Hot Spare。如果沒有自動Rebuild,需要人工執(zhí)行Rebuild 操作,完畢后,將該盤設(shè)置為Hot Spare狀態(tài)。若人工Rebuild操作失敗,可拔出此盤,隔一分鐘后再插入磁盤柜中,重復上述操作;如果仍然失敗,說明該盤可能存在物理故障。

。該盤作為Array磁盤時,節(jié)點無Hot Spare 盤;選中該盤,按鼠標右鍵,執(zhí)行Rebuild操作,若操作失敗,可拔出此盤,隔一分鐘后再插入磁盤柜中,重復上述操作;如果仍然失敗,說明該盤存在物理故障。

。該盤為Hot Spare 盤:選中該盤,按鼠標右鍵,執(zhí)行Delete Hot Spare將此盤從Hot Spare狀態(tài)刪除,再將該盤重新設(shè)置為Hot Spare(也可使用Replace and Rebuild進行)。如果操作失敗,可拔出此盤,隔一分種后再插入磁盤柜中,重復上述操作;如果仍然失敗,說明該盤可能存在物理故障。

 

2、單個磁盤Offline狀態(tài)

手工設(shè)置為Online;如果不成功,先關(guān)閉備機(無控制權(quán)),再重啟主機,然后重新設(shè)置為Online;如果還不成功,將盤拔出磁盤柜,隔一分鐘后重新插入柜中,再次關(guān)閉備機(無控制權(quán)),再分別重新啟動主機和備機。

 

以下兩種情況先關(guān)掉B機,防止系統(tǒng)切換

3、兩個盤 Offline狀態(tài)

先將其中一個Online,所另一個作Rebuild操作,完成后重新啟動主機。

 

4、一個Offline,一個DDD

      將Offline盤設(shè)置為 Online,對DDD盤作Rebuild操作,完成后重新啟動主機。

 

5、硬盤狀態(tài)為Defunct時,可按下列步驟進行恢復

。打開ServeRaid Manager。

。 選中Defunct的硬盤,按右鍵。

。使用Replace And Rebuild對硬盤數(shù)據(jù)進行重建。

。按照屏幕提示,需要先將硬盤拔出,然后再插入。

 

磁盤陣列異常處理

1、當陣列處于Critical時,只需在原來有控制權(quán)的機器上對故障硬盤進行Rebuild即可。

 

2、當陣列處于Blocked時,作如下操作:

。為了保證對陣列的恢復,先將原來沒有控制權(quán)的機器關(guān)閉。

。重新啟動有控制權(quán)的機器,此時系統(tǒng)提示:按F4——修正錯誤;F5 ——接收當前配置。

。按F4修正當前的錯誤,將Blocked狀態(tài)修正為Critical狀態(tài)。

。系統(tǒng)自動對硬盤進行Rebuild。

 

硬盤Rebuild時的進度顯示ServeRaid Manager中窗口底部的狀態(tài)條中

 

二、MSCS的維護:

 

MSCS的維護與陣列的維護密切相關(guān),如果陣列工作狀態(tài)正常,則MSCS一般情況下也正常,但是如果Cluster 中的某些服務不能啟動或損壞,MSCS可能發(fā)生工作異常。

以下是日常維護操作說明:

 

1、首先檢查RAID的工作狀態(tài)(通過IBM ServeRaid manager檢查);

2、使用Cluster Administators查看每個服務的工作情況,所有資源應為Online;

3、如果某服務或資源處于Offline狀態(tài)時,先查明原因,然后人工設(shè)置為Online;

4、如果磁盤或磁盤陣列工作異常,可按照磁盤陣列的維護進行處理;

注意:此時陣列處于Critical狀態(tài),應防止、禁止切換操作(采取關(guān)閉備機的辦法)。

5、如果異外斷電(所有設(shè)備全部斷電),啟動時按下列順序啟動系統(tǒng):

。先啟動陣列柜;

。陣列柜加電后,啟動斷電前屬于控制狀態(tài)的節(jié)點;     

。待完全啟動后,再啟動另外一個節(jié)點。

雙機系統(tǒng)中存在主域控制服務器,應先啟動主域控制服務器。

6、緊急情況下關(guān)機順序如下:

。首先關(guān)閉處于備用狀態(tài)的節(jié)點;

。再關(guān)閉處于控制狀態(tài)的節(jié)點;

。最后關(guān)閉磁盤陣列。

原則上陣列柜不能掉電,特別是正在對進行陣列的讀寫操作時。

7、在特殊情況下,Cluster可能不能啟動,一般情況下可能該節(jié)點對磁盤陣列無控制權(quán),此時在命令行方式下執(zhí)行ipshahto.exe文件,強行取得控制權(quán)。

 

此步驟建議在由技術(shù)人員指導下進行。

8、當硬盤正在Rebuild時,不允許切換;正在同步時,盡量不要切換;

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI