一、存储故障概述
1
、故障环境
两组分别由
4
块
600
G
容量的
SAS
硬盘组成的
raid5
阵列,并且两组阵列划分
LUN
,组成
LVM
结构,并格式化为
EXT3
文件系统
。
2
、故障分析
一块硬盘意外离线,热备盘上线,顶替离线硬盘。但在热备盘上线过程中,又一块硬盘离线,导致热备盘同步失败,两组
raid
阵列中的一组崩溃,
LVM
结构不完整,文件系统无法正常使用。对两块离线硬盘进行检测,发现先离线硬盘无法识别,初步推断是硬件故障,需要进行开盘修复操作,另一块硬盘可以识别。
二、解决方案概述
根据前期的故障分析结果,总结出以下解决方案:
1、
对故障硬盘进行修复,使用
MRT
专业数据恢复软件对故障硬盘进行备份。
2、
使用专业数据恢复软件
winhex
对
raid
其余成员盘和另一组
raid
全部成 员盘进行全盘备份
。
3、
分析每个硬盘的数据,根据分析的结构重组
RAID
阵列。
4、
分析重组完的阵列,
找到
LVM
信息,重组
LVM
卷
。
5、
对重组的
LVM
卷上的
EXT3
文件系统进行解析,恢复并导出全部数据。
三、实施解决方案
1
、
故障盘修复
对故障硬盘进行开盘修复操作。开盘后发现,硬盘盘片磨损严重,已无法修复,只能对阵列进行缺盘处理。
2
、
硬盘备份
使用专业数据恢复软件
winhex
对故障
raid
阵列的其余成员盘进行全盘备份,并且对另一组好的
raid
阵列的全部成员盘进行全盘备份,备份情况如下:
3
、
重组
raid
阵列
仔细分析硬盘底层数据,通过对
EXT3
文件系统结构进行解析,分别分析出两组
raid
阵列的盘序、条带大小、校验方向等配置信息,使用专业数据恢复软件
winhex
重组出两组
raid
阵列
。
经分析,两组
raid
阵列块大小都为
64
K
,校验方向为做同步,对故障
raid
进行重组时注意进行缺盘处理。
4
、
重组
LVM
结构
重组出两组
raid
阵列之后,对两组
raid
中的底层数据进行分析,找到
LVM
结构信息,对
LVM
结构进行分析,将两组
raid
中作为
PV
(
LVM
物理卷)的
LUN
导出,然后使用专业数据恢复软件
UFS
E
xplorer
将两个
PV
重组,重新生成
LVM
逻辑卷。
5
、恢复数据
LVM
重组之后,对
LV
(逻辑卷)中的
EXT3
文件系统进行解析,恢复并导出其中的全部数据。以下为回复出来的数据:
四
、
数据校验
对恢复出来的数据,挑选部分压缩文件等进行校验,发现部分文件损坏,对解析结果和恢复结果对比,发现部分文件损坏且无法恢复。经过分析,初步推断文件损坏与两组
raid
中部分硬盘存在坏道有关。以下为两组
raid
中部分硬盘坏道情况:
R
aid
1
:
2#
67 bad source sectors encountered.
4#
13 bad source sectors encountered.
R
aid
2
:
2#
37 bad source sectors encountered.
五
、恢复结论
由于故障硬盘损坏严重,硬件无法修复,并且部分硬盘存在坏道,导致
raid
结构中可能存在缺陷,部分文件损坏,但大部份文件经验证后恢复成功,只有小部分文件丢失或者损坏,本次数据恢复成功完成。