溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程

發(fā)布時(shí)間:2020-06-28 12:35:35 來(lái)源:網(wǎng)絡(luò) 閱讀:5197 作者:宋國(guó)建 欄目:建站服務(wù)器

一、服務(wù)器數(shù)據(jù)恢復(fù)故障描述

機(jī)房突然斷電導(dǎo)致整個(gè)存儲(chǔ)癱瘓,加電后存儲(chǔ)依然無(wú)法使用。經(jīng)過(guò)用戶(hù)方工程師診斷后認(rèn)為是斷電導(dǎo)致存儲(chǔ)陣列損壞。
整個(gè)存儲(chǔ)是由12塊日立硬盤(pán)(3T SAS硬盤(pán))組成的RAID-6磁盤(pán)陣列,被分成一個(gè)卷,分配給幾臺(tái)Vmware的ESXI主機(jī)做共享存儲(chǔ)。整個(gè)卷中存放了大量的Windows虛擬機(jī),虛擬機(jī)基本都是模板創(chuàng)建的,因此系統(tǒng)盤(pán)都統(tǒng)一為160G。數(shù)據(jù)盤(pán)大小不確定,并且數(shù)據(jù)盤(pán)都是精簡(jiǎn)模式。

二、備份服務(wù)器數(shù)據(jù)

將故障存儲(chǔ)的所有磁盤(pán)和備份sss數(shù)據(jù)的目標(biāo)磁盤(pán)連入到一臺(tái)Windows Server 2008的服務(wù)器上。故障磁盤(pán)都設(shè)為脫機(jī)(只讀)狀態(tài),在專(zhuān)業(yè)工具WinHex下看到連接狀態(tài)如下圖所示:(圖中HD1-HD12為目標(biāo)備份磁盤(pán),HD13-HD24為源故障磁盤(pán),型號(hào)為HUS723030ALS640):
圖一:
服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程
使用WinHex 對(duì)HD13-HD24以底層方式讀取扇區(qū),發(fā)現(xiàn)了大量損壞扇區(qū)。初步判斷可能是這種硬盤(pán)的讀取機(jī)制與常見(jiàn)的硬盤(pán)不一樣。嘗試更換操作主機(jī),更換HBA卡,更換擴(kuò)展柜,更換為L(zhǎng)inux操作系統(tǒng),均呈現(xiàn)相同故障。與用戶(hù)方工程師聯(lián)系,對(duì)方回應(yīng)此控制器對(duì)磁盤(pán)沒(méi)有特殊要求。
使用專(zhuān)業(yè)工具對(duì)硬盤(pán)損壞扇區(qū)的分布規(guī)律進(jìn)行檢測(cè),發(fā)現(xiàn)如下規(guī)則:
1、損壞扇區(qū)分布以256個(gè)扇區(qū)為單位。
2、除損壞扇區(qū)片斷的起始位置不固定外,后面的損壞扇區(qū)都是以2816個(gè)扇區(qū)為間隔。
所有磁盤(pán)的損壞扇區(qū)分布如下表(只列出前3個(gè)損壞扇區(qū)):

服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程
臨時(shí)寫(xiě)了個(gè)小程序,對(duì)每個(gè)磁盤(pán)的損壞扇區(qū)做繞過(guò)處理。用此程序鏡像完所有盤(pán)的數(shù)據(jù)。

三、服務(wù)器數(shù)據(jù)分析

1、分析損壞扇區(qū)
仔細(xì)分析損壞扇區(qū)發(fā)現(xiàn),損壞扇區(qū)呈規(guī)律性出現(xiàn)。
-每段損壞扇區(qū)區(qū)域大小總為256。
-損壞扇區(qū)分布為固定區(qū)域,每跳過(guò)11個(gè)256扇區(qū)遇到一個(gè)壞的256扇區(qū)。
-損壞扇區(qū)的位置一直存在于RAID的P校驗(yàn)或Q校驗(yàn)區(qū)域。
-所有硬盤(pán)中只有10號(hào)盤(pán)中有一個(gè)自然壞道。

2、分析分區(qū)大小
對(duì)HD13、HD23、HD24的0-2扇區(qū)做分析,可知分區(qū)大小為52735352798扇區(qū),此大小按RAID-6的模式計(jì)算,除以9,等于5859483644扇區(qū),與物理硬盤(pán)大小1049524,和DS800控制器中保留的RAID信息區(qū)域大小吻合;同時(shí)根據(jù)物理硬盤(pán)底層表現(xiàn),分區(qū)表大小為512字節(jié),后面無(wú)8字節(jié)校驗(yàn),大量的0扇區(qū)也無(wú)8字節(jié)校驗(yàn)。故可知,原存儲(chǔ)并未啟用存儲(chǔ)中常用的DA技術(shù)(520字節(jié)扇區(qū))。
分區(qū)大小如下圖(GPT分區(qū)表項(xiàng)底層表現(xiàn),涂色部分表示分區(qū)大小,單位512字節(jié)扇區(qū),64bit):
圖二:
服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程

四、重組RAID

1、分析RAID結(jié)構(gòu)
存儲(chǔ)使用的是標(biāo)準(zhǔn)的RAID-6陣列,接下來(lái)只需要分析出RAID 成員數(shù)量以及RAID的走向就可以重組RAID。
-分析RAID條帶大小
整個(gè)存儲(chǔ)被分成一個(gè)大的卷,分配給幾臺(tái)ESXI做共享存儲(chǔ),因此卷的文件系統(tǒng)肯定是VMFS文件系統(tǒng)。而VMFS卷中又有存放了大量的Windows 虛擬機(jī)。Windows虛擬機(jī)中大多使用的是NTFS文件系統(tǒng),因此可以根據(jù)NTFS中的MFT的順序分析出RAID條帶的大小以及RAID的走向。
-分析RAID是否存在掉線盤(pán)
鏡像完所有磁盤(pán)。后發(fā)現(xiàn)最后一塊硬盤(pán)中并沒(méi)有像其他硬盤(pán)一樣有大量的壞道。其中有大量未損壞扇區(qū),這些未損壞扇區(qū)大多是全0扇區(qū)。因此可以判斷這塊硬盤(pán)是熱備盤(pán)。

2、重組RAID
根據(jù)分析出來(lái)的RAID結(jié)構(gòu)重組RAID,能看到目錄結(jié)構(gòu)。但是不確定是否為最新?tīng)顟B(tài),檢測(cè)幾個(gè)虛擬機(jī)發(fā)現(xiàn)有部分虛擬機(jī)正常,但也有很多虛擬機(jī)數(shù)據(jù)異常。初步判斷RAID中存在掉線的磁盤(pán),依次將RAID中的每一塊磁盤(pán)踢掉,然后查看剛才數(shù)據(jù)異常的地方,未果。又仔細(xì)分析底層數(shù)據(jù)發(fā)現(xiàn)問(wèn)題不是出在RAID層面,而是出在VMFS文件系統(tǒng)上。VMFS文件系統(tǒng)如果大于16TB的話會(huì)存在一些其他的記錄信息,因此在組建RAID的時(shí)候需要跳過(guò)這些記錄信息。再次重組RAID,查看以前數(shù)據(jù)異常的地方可以對(duì)上了。針對(duì)其中的一臺(tái)虛擬機(jī)做驗(yàn)證,將所有磁盤(pán)加入RIAD中后,這臺(tái)虛擬機(jī)是可以啟動(dòng)的,但缺盤(pán)的情況下啟動(dòng)有問(wèn)題。因此判斷整個(gè)RAID處在不缺盤(pán)的狀態(tài)為最佳。

五、驗(yàn)證服務(wù)器數(shù)據(jù)

1、驗(yàn)證虛擬機(jī)
針對(duì)用戶(hù)較為重要的虛擬機(jī)做驗(yàn)證,發(fā)現(xiàn)虛擬機(jī)大多都可以開(kāi)機(jī),可以進(jìn)入登陸界面。有部分虛擬機(jī)開(kāi)機(jī)藍(lán)屏或開(kāi)機(jī)檢測(cè)磁盤(pán),但是光盤(pán)修復(fù)之后都可以啟動(dòng)。
部分虛擬機(jī)現(xiàn)象開(kāi)機(jī)如下:
圖三:服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程

2、驗(yàn)證數(shù)據(jù)庫(kù)
針對(duì)重要的虛擬機(jī)中的數(shù)據(jù)庫(kù)做驗(yàn)證,發(fā)現(xiàn)數(shù)據(jù)庫(kù)都正常。其中有一個(gè)數(shù)據(jù)庫(kù),據(jù)用戶(hù)描述是缺少部分?jǐn)?shù)據(jù),但是經(jīng)過(guò)仔細(xì)核對(duì)后發(fā)現(xiàn)這些數(shù)據(jù)在數(shù)據(jù)庫(kù)中本來(lái)就不存在。通過(guò)查詢(xún) master 數(shù)據(jù)庫(kù)中的系統(tǒng)視圖,查出原來(lái)的所有數(shù)據(jù)庫(kù)信息如下:
圖四:服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程

3、檢測(cè)整個(gè)VMFS卷是否完整
由于虛擬機(jī)的數(shù)量很多,每臺(tái)都驗(yàn)證的話,所需的時(shí)間會(huì)很長(zhǎng),因此我們對(duì)整個(gè)VMFS卷做檢測(cè)。在檢測(cè)VMFS卷的過(guò)程中發(fā)現(xiàn)有部分虛擬機(jī)或虛擬機(jī)的文件被破壞。列表如下:
圖五:
服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程

六、服務(wù)器數(shù)據(jù)恢復(fù)成功

1、生成數(shù)據(jù)
北亞工程師跟客戶(hù)溝通并且描述了目前恢復(fù)的情況。用戶(hù)經(jīng)過(guò)對(duì)幾臺(tái)重要的虛擬機(jī)驗(yàn)證后,用戶(hù)反應(yīng)恢復(fù)的數(shù)據(jù)可以接受,接著北亞工程師立即著手準(zhǔn)備恢復(fù)所有數(shù)據(jù)。
先準(zhǔn)備目標(biāo)磁盤(pán),使用一臺(tái)dell 的MD 1200加上11塊3T的硬盤(pán)組成一個(gè)RAID陣列。接著將重組的RAID數(shù)據(jù)鏡像到目標(biāo)陣列上。然后利用專(zhuān)業(yè)的工具UFS解析整個(gè)VMFS文件系統(tǒng)。
2、嘗試掛載恢復(fù)的VMFS卷
將恢復(fù)好的VMFS卷連接到我們的虛擬化環(huán)境中的一臺(tái)ESXI5.5主機(jī)上,嘗試將其掛載到的ESXI5.5的環(huán)境中。但是由于版本(客戶(hù)的ESXI主機(jī)是5.0版本)原因或VMFS本身有損壞,導(dǎo)致其掛載不成功。繼續(xù)嘗試使用ESXI的命令掛載也不成功,于是放棄掛載VMFS卷。

七、移交數(shù)據(jù)

由于時(shí)間緊迫,先安排北亞工程師將MD 1200 陣列上的數(shù)據(jù)帶到用戶(hù)現(xiàn)場(chǎng)。然后使用專(zhuān)業(yè)工具”UFS”依次導(dǎo)出VMFS卷中的虛擬機(jī)。
1、將MD 1200陣列上的數(shù)據(jù)通過(guò)HBA卡連接到用戶(hù)的VCenter服務(wù)器上。
2、在VCenter服務(wù)器安裝“UFS”工具,然后使用“UFS”工具解釋VMFS卷。
3、使用“UFS”工具將VMFS卷中的虛擬機(jī)導(dǎo)入到VCenter服務(wù)器上。
4、使用VCenter的上傳功能將虛擬機(jī)上傳到ESXI的存儲(chǔ)中。
5、接著將上傳完的虛擬機(jī)添加到清單,開(kāi)機(jī)驗(yàn)證即可。
6、如果有虛擬機(jī)開(kāi)機(jī)有問(wèn)題,則嘗試使用命令行模式修復(fù)?;蛘咧亟ㄌ摂M機(jī)并將恢復(fù)的虛擬機(jī)磁盤(pán)(既VMDK文件)拷貝過(guò)去。
7、由于部分虛擬機(jī)的數(shù)據(jù)盤(pán)很大,而數(shù)據(jù)很少。像這種情況就可以直接導(dǎo)出數(shù)據(jù),然后新建一個(gè)虛擬磁盤(pán),最后將導(dǎo)出的數(shù)據(jù)拷貝至新建的虛擬磁盤(pán)中即可。
統(tǒng)計(jì)了一下整個(gè)存儲(chǔ)中虛擬機(jī)的數(shù)量,大約有200臺(tái)虛擬機(jī)。目前的情況只能通過(guò)上述方式將恢復(fù)的虛擬機(jī)一臺(tái)一臺(tái)的恢復(fù)到用戶(hù)的ESXI中。由于是通過(guò)網(wǎng)絡(luò)傳輸,因此整個(gè)遷移的過(guò)程中網(wǎng)絡(luò)是一個(gè)瓶頸。經(jīng)過(guò)不斷的調(diào)試以及更換主機(jī)最終還是無(wú)法達(dá)到一個(gè)理想的狀態(tài),由于時(shí)間緊張,最終還是決定在當(dāng)前的環(huán)境遷移數(shù)據(jù)。

八、服務(wù)器數(shù)據(jù)恢復(fù)總結(jié)

1、故障總結(jié)
所有磁盤(pán)壞道的規(guī)律如下表:
服務(wù)器斷電癱瘓數(shù)據(jù)丟失后恢復(fù)數(shù)據(jù)的過(guò)程

經(jīng)過(guò)仔細(xì)分析后得出壞道的結(jié)論如下:
-除去SN:YHJ6LEUD上的一個(gè)自然壞道外,其余壞道均分布于RAID-6的Q校驗(yàn)塊中。
-壞道區(qū)域多數(shù)表現(xiàn)為完整的256個(gè)扇區(qū),正好當(dāng)時(shí)創(chuàng)建RAID-6時(shí)的一個(gè)完整RAID塊大小。
-活動(dòng)區(qū)域表現(xiàn)為壞道,非活動(dòng)區(qū)域壞道有可能不出現(xiàn),如熱備盤(pán),上線不足10%,壞道數(shù)量就比其他在線盤(pán)少(熱備盤(pán)的鏡像4小時(shí)完成,其他有壞道盤(pán)大概花費(fèi)40小時(shí))
-其他非Q校驗(yàn)區(qū)域完好,無(wú)任何故障。
結(jié)論:
通常情況,經(jīng)如上壞道規(guī)則表現(xiàn)可推斷,壞道為控制器生成Q校驗(yàn),向硬盤(pán)下達(dá)IO指令時(shí),可能表現(xiàn)為非標(biāo)指令,硬盤(pán)內(nèi)部處理異常,導(dǎo)致出現(xiàn)規(guī)律性壞道。
2、數(shù)據(jù)恢復(fù)總結(jié)
數(shù)據(jù)恢復(fù)過(guò)程中由于壞道數(shù)量太多,以致備份數(shù)據(jù)時(shí)花費(fèi)了很長(zhǎng)世間。整個(gè)存儲(chǔ)是由壞道引起的,導(dǎo)致最終恢復(fù)的數(shù)據(jù)有部分破壞,但不影響整體數(shù)據(jù),最終的結(jié)果也在可接受范圍內(nèi)。
整個(gè)恢復(fù)過(guò)程,用戶(hù)方要求緊急,我方也安排工程師加班加點(diǎn),最終在最短的時(shí)間內(nèi)將數(shù)據(jù)恢復(fù)出來(lái)。后續(xù)的數(shù)據(jù)遷移過(guò)程中由我方工程師和用戶(hù)方工程師配合完成。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI