【服務器數(shù)據(jù)恢復故障描述】
用戶的EMC CX4-480存儲服務器由于硬盤出現(xiàn)故障離線癱瘓。服務器中共有10塊硬盤,其中7塊硬盤組成RAID 5磁盤陣列。另外3塊硬盤為服務器在使用過程中的掉線磁盤,用戶在處理掉線磁盤時只添加新的硬盤做rebuild,并沒有將掉線的硬盤拔掉,現(xiàn)已有過3塊掉線磁盤,所以服務器中有3塊多余硬盤。
服務器管理員推斷服務器癱瘓的原因是陣列中硬盤出現(xiàn)硬件故障導致服務器癱瘓,于是將所有硬盤交給硬件數(shù)據(jù)恢復工程師對硬件進行物理檢測。硬件數(shù)據(jù)恢復工程師對服務器中所有硬盤逐一進行物理檢測后并沒有發(fā)現(xiàn)硬盤存在物理故障,只好由服務器數(shù)據(jù)恢復工程師對所有硬盤做全盤鏡像后對服務器riad進行分析。
【服務器數(shù)據(jù)恢復】
按照數(shù)據(jù)恢復流程對所有磁盤進行鏡像備份后,服務器數(shù)據(jù)恢復工程師開始對服務器raid結構進行分析;服務器數(shù)據(jù)恢復工程師分析后發(fā)現(xiàn)該服務器中的硬盤每512字節(jié)多加了一個8字節(jié)的校驗,也就是變成了每扇區(qū)520字節(jié)了。如此一來繼續(xù)進行raid結構分析將十分困難,為了提高工作效率,服務器數(shù)據(jù)恢復工程師自己編寫了一個小程序?qū)?字節(jié)的校驗去掉來方便后期的工作。
所有磁盤都轉換完成后,工程師繼續(xù)分析RAID的結構。由于多了3塊以前的舊盤,需要通過比較每塊磁盤,即其中會有兩塊磁盤前面的一部分相同,而這兩塊當中會有一個是舊的,舊的數(shù)據(jù)量沒有新盤多,就可以排除舊的磁盤。這樣的磁盤會有3對,也就可以排除所有舊的磁盤了。
接下來看RAID結構,由于客戶用的NTFS文件系統(tǒng),用MFT很容易就可以找到RAID的結構了。知道RAID結構后發(fā)現(xiàn)這不是一個普通的RAID 5,而是一個雙循環(huán)。無法借助數(shù)據(jù)恢復工具重組RAID,只好轉為其他方式重組raid陣列!重組RAID后發(fā)現(xiàn)數(shù)據(jù)不是最新的。服務器數(shù)據(jù)恢復工程師猜測可能是RAID 5先掉線一塊硬盤時管理員沒有及時發(fā)現(xiàn),沒有及時添加新的硬盤做rebuild。導致運行一段時間后又有一塊硬盤掉線了,才造成整個RAID不可用。所以還需要找出一塊舊的磁盤,才能生成最新的數(shù)據(jù)。繼續(xù)進行找盤的工作!服務器數(shù)據(jù)恢復工程師采用窮舉加校驗的方法進行分析,即假設某個磁盤是掉線的,踢掉磁盤后重組RAID,但不是生成全部的數(shù)據(jù),而是只生成前面5G的數(shù)據(jù),我們只需要查看這個索引表的位圖的信息是否正確就可以判斷此RAID是否正確。如果正確那么生成此RAID的數(shù)據(jù)即可完成RAID的重組
【服務器數(shù)據(jù)恢復成功】
? ? ? ?整個恢復過程,包括做鏡像,扇區(qū)轉換和最后的拷貝數(shù)據(jù),一共耗時3天。數(shù)據(jù)恢復率達百分之九十九以上。雖然整個過程比較漫長,但是最終的結果用戶很高興,因為這給他們帶來了不必要的損失。
評論
查看更多