安価、小型で複数台のHDDが収容出来るNAS(Terastation等)が普及したため、RAIDが広く使われるようになってきました。
RAID0(スパニング/ストライピング)のデータの脆弱性は良く知られていますが、一般的にRAID1(ミラーリング)であればとりあえず安心、RAID5なら万全と考えられています。
しかし、データ復旧の現場から見ますと、このRAID信仰が一旦障害が発生した場合の被害をさらに大きくする要因になっています。
1.RAID1(ミラーリング)の場合
<障害例1>
* 障害を起こしたHDDを正常なHDDがミラーリングしてしまい、2台とも同じ症状に陥る
<障害例2>
*自動的にミラーリングしているはずが、障害を起こしてからログを確認すると 何ヶ月も前からミラーリングしていなかった
これらのケースは一台のHDDの復旧で解決しました。
1.RAID5の場合
<障害例1>3台のHDDで RAID5を組んでた、Windows2000server
<状況>
HDDのうち1台が障害を起こし 、その交換用を手配している間に もう1台(2台目)に
障害が発生
<結果>
障害を起こした2台のHDDを復旧
元の3台のHDDよりパリティ情報の抽出、元のRAIDを再構築を経てデータ復旧
「2台 同時期に故障するなんて・・・」と考えられるかの知れませんが
同じ部材で製造され、同じ環境で、同じ時間使用しているわけですから、
ほぼ同時期に障害が発生するのは不思議でも何でもありません。
<障害例2> RAID5を組んでいたNASの場合
<状況>
HDD 1台が障害を起こした。障害を起こしたhddを交換し、リビルトをかけたところ、途中で止まってしまい(終了しなくなり)
アクセス出来なくなった。
↓↓
<原因>
他の3台と異なるメーカー製のHDDを使った
=>より重大な障害を引き起こす可能性が大です 絶対にやらないでください
<結果>
まず障害を起こしたHDDを復旧
その後 元の4台のHDDよりパリティ情報の抽出、元のRAIDを再構築しデータ復旧に成功
*アクセス出来る状況なら、リビルト前にまず重要なデータのバックアップをとること
*交換するHDDは必ず 同じメーカの同じ型番は当然として、安全のために同じロットのものを使うこと
その為には RAID導入時に 同ロットの予備HDDを1台以上ストックしておくこと
<障害例3> RAID5を組んでいたNASの場合
<状況>
HDD4番の不良のメッセージが出た
↓↓
実際にはHDD2番と3番にトラック0障害が発生しており、
これをRAIDコントローラーが読み違えHDD4の不良と判断していた。
*この製品のあるバージョンのOS(ソフトウェアRAID)にバグがあったようで、障害ディスクの表示を間違えるようです。同様の事例を何件か聞いています。
↓↓
メーカーに確認し サポートの指示通り HDD4番を交換、リビルトをかけた
↓↓
間違った RAID情報を基に リビルトが始まり、データを破壊してしまった。
<結果>
4台のHDDを高度解析 パリティ情報の抽出により元のRAIDを再構築しデータ復旧に成功
*ソフトウェアRAID(terastation等)でトラック0障害が発生すると 復旧はやっかいです。
<原因>
障害を起こしたHDDが異常動作のため発熱 小型の筐体に複数のHDDが組み込まれている構造の為
熱的に苦しく その熱により上部のHDDに連鎖的に障害が発生したものと考えられます。
*最近のものはファンを増強する等で対策がなされているようです。
注意事項(絶対に守ること) |
1.RAIDを過信しないで、常時監視をする(常駐で管理者のいないRAID5はきわめて危険です)
2.RAIDとバックアップは別のもの バックアップの代わりにはなりません。
通常以上により確実なバックアップが必要となります。
3.<RAID5にトラブルが起きたら>
◆<鉄則>動いているならHDD交換の前にまずバックアップ◆
1台のHDDに障害が発生して冗長性が無くなった状態をdegraded mode(デグレード)といいます
この状態になると残りのHDDすべてが完全でなければ復帰できません。
つまり 4台でRAID5を構成していた場合、1台が障害を起こしdegraded
modeに入った場合
残り3台のすべてが完全な状態でないと元の状態には戻りません。
ところが 普段使わない領域に不良セクタ(不良ブロック)が在った場合
(通常どんなHDDでもいくらかの不良セクタは在る物です)
その領域を読もうとして 一回でもリードエラーを起こすと そのRAIDはもう復帰できません。
これがRAID5の危険性です。
4.安易にリビルトしない
リビルトするとHDDの全領域にアクセスするため、通常アクセスしない領域に不良ブロックがあると リードエラーを起こし リビルトが中断され、極めて面倒な状況を引き起こします。
| ポイント 複数台のRAIDはその台数分故障の発生率が高くなります。 |
2台の場合 → 2倍の故障率になります
4台の場合 → 8倍の故障率になります |
RAIDは同じメーカーの同じ型番、同じロットのHDDで組むことが原則です。
その為、同じHDDを少なくとも1台は予備に準備しておくことが必要です。
*RAIDコントローラーのトラブルが原因でデータが破損することもあります。
*RAID障害が発生するとパリティ情報を抽出するためにすべてのHDDを解析しなければならない場合があります。 |
これらのRAID障害からの復旧は充分可能ですがリビルトすると復旧は困難になります。事態を悪化させる前に お問い合せください。

問い合わせ専用電話090-7952-5267 オフィス053-542-1919
|