溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

服務(wù)器raid5兩塊硬盤離線vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方法

發(fā)布時間:2020-06-21 21:22:45 來源:網(wǎng)絡(luò) 閱讀:7388 作者:宋國建 欄目:建站服務(wù)器

服務(wù)器數(shù)據(jù)恢復(fù)故障描述
客戶的服務(wù)器共有8塊450GB SAS硬盤,其中7塊硬盤組成一個RAID5陣列,1塊熱備盤。陣列中2塊硬盤損壞并離線,導(dǎo)致RAID5陣列癱瘓,進而影響上層LUN無法正常使用。硬盤無物理故障,無壞道。

對服務(wù)器raid數(shù)據(jù)恢復(fù)過程:

1、備份數(shù)據(jù)
使用dd命令或數(shù)據(jù)恢復(fù)工具將所有磁盤鏡像成文件。
圖一:
服務(wù)器raid5兩塊硬盤離線vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方法
2、分析RAID組結(jié)構(gòu)
服務(wù)器的LUN都是基于RAID組的,所以需要先對底層RAID組的信息作出分析,再依據(jù)這些數(shù)據(jù)重構(gòu)原始的RAID組。通過分析得知4號盤為hot Spare盤。繼續(xù)分析Oracle數(shù)據(jù)庫頁在每個磁盤中分布的情況,進而得出RAID組的條帶大小,磁盤順序及數(shù)據(jù)走向等RAID組的重要信息。
3、分析RAID組掉線盤
根據(jù)上述分析的RAID信息,嘗試通過RAID虛擬程序?qū)⒃嫉腞AID組虛擬出來。仔細分析每一塊硬盤中的數(shù)據(jù),通過北亞自主開發(fā)的RAID校驗程序?qū)@個條帶做校驗,將最先掉線的硬盤剔除出raid。
4、分析RAID組中的LUN信息
由于LUN是基于RAID組的,因此需要根據(jù)上述分析的信息將RAID組最新的狀態(tài)虛擬出來。然后分析LUN在RAID組中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。由于底層有6個LUN,因此只需要將每一個LUN的數(shù)據(jù)塊分布MAP提取出來。然后針對這些信息編寫相應(yīng)的程序,對所有LUN的數(shù)據(jù)MAP做解析,然后根據(jù)數(shù)據(jù)MAP并導(dǎo)出所有LUN的數(shù)據(jù)。
圖二:
服務(wù)器raid5兩塊硬盤離線vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方法
5、解析LVM邏輯卷
分析生成出來的所有LUN,發(fā)現(xiàn)所有LUN中均包含HP-Unix的LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息,發(fā)現(xiàn)其中一共有三套LVM,其中45G的LVM中劃分了一個LV,里面存放OA服務(wù)器端的數(shù)據(jù),190G的LVM中劃分了一個LV,里面存放臨時備份數(shù)據(jù)。剩余4個LUN組成一個2.1T左右的LVM,也只劃分了一個LV,里面存放Oracle數(shù)據(jù)庫文件。編寫解釋LVM的程序,嘗試將每套LVM中的LV卷都解釋出來,但發(fā)現(xiàn)解釋程序出錯。
6、修復(fù)LVM邏輯卷
仔細分析程序報錯的原因,安排開發(fā)工程師debug程序出錯的位置,并同時安排高級文件系統(tǒng)工程師對恢復(fù)的LUN做檢測,檢測LVM信息是否會因存儲癱瘓導(dǎo)致LMV邏輯卷的信息損壞。經(jīng)過仔細檢測,發(fā)現(xiàn)確實因為存儲癱瘓導(dǎo)致LVM信息損壞。嘗試人工對損壞的區(qū)域進行修復(fù),并同步修改程序,重新解析LVM邏輯卷。
7、解析VXFS文件系統(tǒng)
搭建HP-Unix環(huán)境,將解釋出來的LV卷映射到HP-Unix,并嘗試Mount文件系統(tǒng)。結(jié)果Mount文件系統(tǒng)出錯,嘗試使用“fsck –F vxfs” 命令修復(fù)vxfs文件系統(tǒng),但修復(fù)結(jié)果還是不能掛載,懷疑底層vxfs文件系統(tǒng)的部分元數(shù)據(jù)可能破壞,需要進行手工修復(fù)。
8、修復(fù)VXFS文件系統(tǒng)
仔細分析解析出來的LV,并根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗此文件系統(tǒng)是否完整。分析發(fā)現(xiàn)底層VXFS文件系統(tǒng)果然有問題,原來當(dāng)時存儲癱瘓的同時此文件在系統(tǒng)正在執(zhí)行IO操作,因此導(dǎo)致部分文件系統(tǒng)元文件沒有更新以及損壞。人工對這些損壞的元文件進行手工修復(fù),保證VXFS文件系統(tǒng)能夠正常解析。再次將修復(fù)好的LV卷掛載到HP-Unix小機上,嘗試Mount文件系統(tǒng),文件系統(tǒng)沒有報錯,成功掛載。
9、恢復(fù)所有用戶文件
在HP-Unix機器上mount文件系統(tǒng)后,將所有用戶數(shù)據(jù)均備份至指定磁盤空間。所有用戶數(shù)據(jù)大小在1.2TB左右。部分文件目錄截圖如下:
圖三:
服務(wù)器raid5兩塊硬盤離線vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方法
10、檢測數(shù)據(jù)庫文件是否完整
使用Oracle數(shù)據(jù)庫文件檢測工具“dbv”檢測每個數(shù)據(jù)庫文件是否完整,發(fā)現(xiàn)并沒有錯誤。再使用北亞自主研發(fā)的Oracle數(shù)據(jù)庫檢測工具(檢驗更嚴格),發(fā)現(xiàn)有部分數(shù)據(jù)庫文件和日志文件校驗不一致,安排高級數(shù)據(jù)庫工程師對此類文件進行修復(fù),并在次校驗,直到所有文件校驗均完全通過。
11、啟動Oracle數(shù)據(jù)庫
由于我們提供的HP-Unix環(huán)境沒有此版本的Oracle數(shù)據(jù),因此和用戶協(xié)調(diào)將原始生成環(huán)境帶至北亞數(shù)據(jù)恢復(fù)中心,然后將恢復(fù)的Oracle數(shù)據(jù)庫附加到原始生產(chǎn)環(huán)境的HP-Unix服務(wù)器中,嘗試啟動Oracle數(shù)據(jù)庫,Oracle數(shù)據(jù)庫啟動成功。部分截圖如下:
圖四:
服務(wù)器raid5兩塊硬盤離線vxfs文件系統(tǒng)恢復(fù)數(shù)據(jù)方法
12、數(shù)據(jù)驗證
由用戶方配合,啟動Oracle數(shù)據(jù)庫,啟動OA服務(wù)端,在本地筆記本安裝OA客戶端。通過OA客戶端對最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄進行驗證,并且有用戶安排遠程不同部門人員進行遠程驗證。最終數(shù)據(jù)驗證無誤,數(shù)據(jù)完整,數(shù)據(jù)恢復(fù)成功。
由于故障發(fā)生后保存現(xiàn)場環(huán)境良好,沒用做相關(guān)危險的操作,對后期的數(shù)據(jù)恢復(fù)有很大的幫助。整個數(shù)據(jù)恢復(fù)過程中雖然遇到好多技術(shù)瓶頸,但也都一一解決。最終在預(yù)期的時間內(nèi)完成整個數(shù)據(jù)恢復(fù),恢復(fù)的數(shù)據(jù)用戶方也相當(dāng)滿意,Oracle數(shù)據(jù)庫服務(wù),OA服務(wù)端等所有服務(wù)能夠正常啟動。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI