服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某品牌EVA某型號存儲,底層是RAID5陣列,劃分了若干lun。
服務(wù)器故障&分析:
該存儲設(shè)備中raid5陣列有兩塊硬盤掉線,存儲中的lun丟失。
將故障服務(wù)器存儲中的所有磁盤編號后取出,硬件工程師檢測后發(fā)現(xiàn)掉線硬盤不存在物理故障,也沒有發(fā)現(xiàn)壞道,都可以正常讀取數(shù)據(jù)。
掉線硬盤經(jīng)過檢測沒有發(fā)現(xiàn)有物理故障,可以初步判斷硬盤掉線是因為硬盤讀寫不穩(wěn)定,本案例中EVA存儲中所采用的raid控制器通常會將讀寫不穩(wěn)定的硬盤判斷為壞盤并踢出陣列。由于raid5的特性,掉線硬盤超過了2塊后就會導(dǎo)致陣列崩潰。
EVA存儲中每個LUN都有一份LUN_MAP,EVA存儲將LUN_MAP分別存放在不同的磁盤中,通過一個索引來指定其位置。因此在每個磁盤中找這個指向LUN_MAP的索引就可以找到LUN的信息了。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障存儲中所有磁盤以只讀模式進行扇區(qū)級的全盤鏡像,鏡像完成后將所有磁盤按照編號還原到原存儲中。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析硬盤底層數(shù)據(jù)。由于LUN的RAID結(jié)構(gòu)是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值進行比較就可以判斷這個條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中有哪些RAID條目中有掉線盤,在RAID條目中都存在的盤一定就是掉線盤。剔除掉掉線盤后就可以根據(jù)LUN_MAP恢復(fù)所有LUN的數(shù)據(jù)。
3、北亞企安數(shù)據(jù)恢復(fù)工程師編寫掃描程序掃描LUN_MAP,結(jié)合人工分析找到正確的LUN_MAP。
4、北亞企安數(shù)據(jù)恢復(fù)工程師編寫RAID條目檢測程序檢測所有LUN中掉線的磁盤,結(jié)合人工分析排除掉線磁盤。
5、北亞企安數(shù)據(jù)恢復(fù)工程師編寫數(shù)據(jù)恢復(fù)程序,結(jié)合LUN_MAP恢復(fù)所有LUN數(shù)據(jù)。人工核對每個LUN,確認是否和用戶方描述的一致。
根據(jù)用戶方工程師的描述,LUN的數(shù)據(jù)分為2部分:Vmware的虛擬機和HP-UX上的裸設(shè)備。裸設(shè)備里存放的是Oracle的dbf數(shù)據(jù)庫。由于恢復(fù)的是LUN,無法看到里面的文件,因此需要人工核對哪些LUN是Vmware虛擬機,哪些LUN是HP-UX裸設(shè)備。核對完成后將不同的LUN掛載到不同的驗證環(huán)境中驗證恢復(fù)出來的數(shù)據(jù)是否完整。
6、驗證數(shù)據(jù)完整性沒有問題后,將所有存放vmware虛擬機的LUN中的虛擬機文件都提取出來,然后通過NFS共享的方式掛載到虛擬主機上。
7、通過NFS將所有虛擬機都添加到虛擬主機以后,將所有虛擬機加電開機,都能啟動系統(tǒng)。用戶方工程師進入到虛擬機內(nèi)查看數(shù)據(jù),經(jīng)過驗證確認虛擬機內(nèi)的數(shù)據(jù)沒有問題,確認恢復(fù)出來的數(shù)據(jù)完整有效。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85324 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
568瀏覽量
17432
發(fā)布評論請先 登錄
相關(guān)推薦
評論