溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么

發(fā)布時(shí)間:2021-12-08 09:27:00 來(lái)源:億速云 閱讀:257 作者:柒染 欄目:服務(wù)器

這篇文章給大家介紹HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

一、HP MSA存儲(chǔ)設(shè)備信息

1、存儲(chǔ)空間由8塊450GB SAS的硬盤組成。

2、7塊硬盤組成一個(gè)RAID5的陣列,1塊作為熱備盤。

二、HP MSA存儲(chǔ)設(shè)備故障描述

1、RAID5陣列中出現(xiàn)2塊硬盤損壞,而此時(shí)只有一塊熱備盤成功激活,因此導(dǎo)致RAID5陣列癱瘓,上層LUN無(wú)法正常使用。

2、RAID陣列中某些磁盤掉線,導(dǎo)致整個(gè)存儲(chǔ)不可用。因此需要先對(duì)所有磁盤做物理檢測(cè),檢測(cè)完后確認(rèn)硬盤無(wú)物理故障。接著使用壞道檢測(cè)工具檢測(cè)磁盤壞道,發(fā)現(xiàn)也無(wú)壞道。

HP MSA存儲(chǔ)備份數(shù)據(jù)

考慮到數(shù)據(jù)的安全性以及可還原性,在做數(shù)據(jù)恢復(fù)之前需要對(duì)所有源數(shù)據(jù)做備份,以防萬(wàn)一其他原因?qū)е聰?shù)據(jù)無(wú)法再次恢復(fù)。使用dd命令或winhex工具將所有磁盤都鏡像成文件。備份完部分?jǐn)?shù)據(jù)如下圖:

HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么

、HP MSA存儲(chǔ)故障分析

1、分析故障原因

經(jīng)推斷可能是由于某些磁盤讀寫(xiě)不穩(wěn)定導(dǎo)致故障發(fā)生。因?yàn)镠P MSA2000控制器檢查磁盤的策略很嚴(yán)格,一旦某些磁盤性能不穩(wěn)定,HP MSA2000控制器就認(rèn)為是壞盤,就將認(rèn)為是壞盤的磁盤踢出RAID組。而一旦RAID組中掉線的盤到達(dá)到RAID級(jí)別允許掉盤的極限,那么這個(gè)RAID組將變的不可用,上層基于RAID組的LUN也將變的不可用。目前初步了解的情況為基于RAID組的LUN有6個(gè),均分配給HP-Unix小機(jī)使用,上層做的LVM邏輯卷,重要數(shù)據(jù)為Oracle數(shù)據(jù)庫(kù)及OA服務(wù)端。

2、分析RAID組結(jié)構(gòu)

HP MSA2000存儲(chǔ)的LUN都是基于RAID組的,因此需要先分析底層RAID組的信息,然后根據(jù)分析的信息重構(gòu)原始的RAID組。分析每一塊數(shù)據(jù)盤,發(fā)現(xiàn)4號(hào)盤的數(shù)據(jù)同其它數(shù)據(jù)盤不太一樣,初步認(rèn)為可能是hot Spare盤。接著分析其他數(shù)據(jù)盤,分析Oracle數(shù)據(jù)庫(kù)頁(yè)在每個(gè)磁盤中分布的情況,并根據(jù)數(shù)據(jù)分布的情況得出RAID組的條帶大小,磁盤順序及數(shù)據(jù)走向等RAID組的重要信息。

3、分析RAID組掉線盤先后順序

根據(jù)上述分析的RAID信息,嘗試通過(guò)北亞自主開(kāi)發(fā)的RAID虛擬程序?qū)⒃嫉腞AID組虛擬出來(lái)。但由于整個(gè)RAID組中一共掉線兩塊盤,因此需要分析這兩塊硬盤掉線的順序。仔細(xì)分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個(gè)條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,因此初步判斷此硬盤可能是最先掉線的,通過(guò)北亞自主開(kāi)發(fā)的RAID校驗(yàn)程序?qū)@個(gè)條帶做校驗(yàn),發(fā)現(xiàn)除掉剛才分析的那塊硬盤得出的數(shù)據(jù)是最好的,因此可以明確最先掉線的硬盤了。

4、分析RAID組中的LUN信息

首先分析LUN在RAID組中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。由于底層有6個(gè)LUN,因此只需要將每一個(gè)LUN的數(shù)據(jù)塊分布MAP提取出來(lái)。然后針對(duì)這些信息編寫(xiě)相應(yīng)的程序,對(duì)所有LUN的數(shù)據(jù)MAP做解析,然后根據(jù)數(shù)據(jù)MAP并導(dǎo)出所有LUN的數(shù)據(jù)。

HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么

、HP MSA存儲(chǔ)LVM邏輯卷及VXFS文件系統(tǒng)修復(fù)

1、解析LVM邏輯卷

分析生成出來(lái)的所有LUN,發(fā)現(xiàn)所有LUN中均包含HP-Unix的LVM邏輯卷信息。嘗試解析每個(gè)LUN中的LVM信息,發(fā)現(xiàn)其中一共有三套LVM,其中45G的LVM中劃分了一個(gè)LV,里面存放OA服務(wù)器端的數(shù)據(jù),190G的LVM中劃分了一個(gè)LV,里面存放臨時(shí)備份數(shù)據(jù)。剩余4個(gè)LUN組成一個(gè)2.1T左右的LVM,也只劃分了一個(gè)LV,里面存放Oracle數(shù)據(jù)庫(kù)文件。編寫(xiě)解釋LVM的程序,嘗試將每套LVM中的LV卷都解釋出來(lái),但發(fā)現(xiàn)解釋程序出錯(cuò)。

2、修復(fù)LVM邏輯卷

仔細(xì)分析程序報(bào)錯(cuò)的原因,安排開(kāi)發(fā)工程師debug程序出錯(cuò)的位置,并同時(shí)安排高級(jí)文件系統(tǒng)工程師對(duì)恢復(fù)的LUN做檢測(cè),檢測(cè)LVM信息是否會(huì)因存儲(chǔ)癱瘓導(dǎo)致LMV邏輯卷的信息損壞。經(jīng)過(guò)仔細(xì)檢測(cè),發(fā)現(xiàn)確實(shí)因?yàn)榇鎯?chǔ)癱瘓導(dǎo)致LVM信息損壞。嘗試人工對(duì)損壞的區(qū)域進(jìn)行修復(fù),并同步修改程序,重新解析LVM邏輯卷。

3、解析VXFS文件系統(tǒng)

搭建HP-Unix環(huán)境,將解釋出來(lái)的LV卷映射到HP-Unix,并嘗試Mount文件系統(tǒng)。結(jié)果Mount文件系統(tǒng)出錯(cuò),嘗試使用“fsck –F vxfs” 命令修復(fù)vxfs文件系統(tǒng),但修復(fù)結(jié)果還是不能掛載,懷疑底層vxfs文件系統(tǒng)的部分元數(shù)據(jù)可能破壞,需要進(jìn)行手工修復(fù)。

4、修復(fù)VXFS文件系統(tǒng)

仔細(xì)分析解析出來(lái)的LV,并根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗(yàn)此文件系統(tǒng)是否完整。分析發(fā)現(xiàn)底層VXFS文件系統(tǒng)果然有問(wèn)題,原來(lái)當(dāng)時(shí)存儲(chǔ)癱瘓的同時(shí)此文件在系統(tǒng)正在執(zhí)行IO操作,因此導(dǎo)致部分文件系統(tǒng)元文件沒(méi)有更新以及損壞。人工對(duì)這些損壞的元文件進(jìn)行手工修復(fù),保證VXFS文件系統(tǒng)能夠正常解析。再次將修復(fù)好的LV卷掛載到HP-Unix小機(jī)上,嘗試Mount文件系統(tǒng),文件系統(tǒng)沒(méi)有報(bào)錯(cuò),成功掛載。

、檢測(cè)Oracle數(shù)據(jù)庫(kù)文件并啟動(dòng)數(shù)據(jù)庫(kù)

1、恢復(fù)Oracle數(shù)據(jù)庫(kù)文件

在HP-Unix機(jī)器上mount文件系統(tǒng)后,將所有用戶數(shù)據(jù)均備份至指定磁盤空間。所有用戶數(shù)據(jù)大小在1.2TB左右。部分文件目錄截圖如下:

HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么

2、檢測(cè)Oracle數(shù)據(jù)庫(kù)文件是否完整

使用Oracle數(shù)據(jù)庫(kù)文件檢測(cè)工具“dbv”檢測(cè)每個(gè)數(shù)據(jù)庫(kù)文件是否完整,發(fā)現(xiàn)并沒(méi)有錯(cuò)誤。再使用北亞自主研發(fā)的Oracle數(shù)據(jù)庫(kù)檢測(cè)工具(檢驗(yàn)更嚴(yán)格),發(fā)現(xiàn)有部分?jǐn)?shù)據(jù)庫(kù)文件和日志文件校驗(yàn)不一致,安排高級(jí)數(shù)據(jù)庫(kù)工程師對(duì)此類文件進(jìn)行修復(fù),并在次校驗(yàn),直到所有文件校驗(yàn)均完全通過(guò)。

3、啟動(dòng)Oracle數(shù)據(jù)庫(kù)

由于我們提供的HP-Unix環(huán)境沒(méi)有此版本的Oracle數(shù)據(jù),因此需要用戶的原始環(huán)境,將恢復(fù)的Oracle數(shù)據(jù)庫(kù)附加到原始生產(chǎn)環(huán)境的HP-Unix服務(wù)器中,嘗試啟動(dòng)Oracle數(shù)據(jù)庫(kù),Oracle數(shù)據(jù)庫(kù)啟動(dòng)成功。部分截圖如下:

HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么

、HP MSA存儲(chǔ)數(shù)據(jù)驗(yàn)證

由用戶方的積極配合,啟動(dòng)Oracle數(shù)據(jù)庫(kù),啟動(dòng)OA服務(wù)端,在本地筆記本安裝OA客戶端。通過(guò)OA客戶端對(duì)最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄進(jìn)行驗(yàn)證,并且有用戶安排遠(yuǎn)程不同部門人員進(jìn)行遠(yuǎn)程驗(yàn)證。最終數(shù)據(jù)驗(yàn)證無(wú)誤,數(shù)據(jù)完整,至此數(shù)據(jù)恢復(fù)工作結(jié)束。

關(guān)于HP MSA存儲(chǔ)中硬盤掉線的解決方式是什么就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

hp
AI