夏場に増えるRAID障害、やってはいけない4つのこと~自力復旧に危険性も


「日本データテクノロジー」上級技術員の笠嶋一貴氏

 複数のHDDを組み合わせて1台のHDDとして管理することで、故障時のデータ復旧を可能にするRAID。企業や官公庁などで、大事なデータを収めるディスクの可用性を高めるためにRAIDを組むことも多い。

 しかし、特に夏場は「データを認識しない」「エラー音がする」「異音がする」といったRAID機器やサーバーのトラブルが急増する――。こう指摘するのはデータ復旧サービスを手がける「日本データテクノロジー」(サイト名は「データ復旧.com」)上級技術員である笠嶋一貴氏。

 「連日の猛暑の中、放置されたRAID機器やサーバーは熱の影響により障害が発生するリスクが普段よりも高まっています。特に夏場はRAIDサーバーのデータ復旧に関する問い合わせが普段よりも2~3割多く寄せられます。」

 笠嶋氏によれば、RAID障害時に慣れていない人が対応することにより、RAID全体を壊してしまう事態もしばしばあると警鐘を鳴らす。それでは、実際にどのようなケースと危険性があるのかについて、笠嶋氏に話を聞いた。

初期対応ユーザーの操作が原因のRAID障害、4つのケース

 ユーザーによる誤った初期対応が原因となるRAID障害は、主に4種類に分けられるという。

 1つ目は、正常でないシャットダウンによりディスクに異常が起こるケースだ。動作が怪しくなったときに、とりあえず終了しようと電源ボタンを長押ししたり、電源ケーブルを抜いたりして強制的に電源を切ってしまうというものだ。それにより、RAID情報やファイルシステムの管理情報に不整合が発生して壊れてしまう。場合によっては、基板にダメージが発生する場合もある。

 この場合、RAIDなどの管理情報が壊れていても、ファイルのデータそのものは壊れていないことが多く、そのような場合にはデータ復旧.comにディスクを送るか、直接持ち込めばその日のうちに修復できるという。

NASの場合、強制的に電源を落とすと、OSシステムの領域が破損し、ファイルシステム異常を起こす危険性がある電源ケーブルをいきなり外してしまうことで、筐体自体が壊れる恐れもある

 2つ目はRAIDのリビルド(再構築)の失敗だ。たとえば、RAID5で1台のディスクに異常が起き、そのディスクを交換してリビルドしている最中に、別のディスクに異常が起きてRAIDが壊れる場合などがある。

 この場合は、正常でないシャットダウンのケースより復旧の難易度は高い。リビルドが始まってすぐであればデータを救い出せるが、リビルドが半分以上進んでしまうと難しいという。

リビルド失敗によるRAID崩壊
新しいデータの上書きが途中で止まっている。リビルドはRAID情報→データ→OSの順に行われる。OS領域まで上書きが終わらないとアクセスができない

 3つ目は、管理画面での誤操作による初期化だ。動作が怪しくなったときなどに、焦って操作して、初期化やRAIDレベルの変更などの操作を実行してしまい、ディスクを初期化してしまうというものだ。

 この場合、RAID情報もシステム領域も書き変わってしまうため、復旧の難易度が高い。ただし、ファイルのデータが書き変わっていることは少なく、8割ぐらいは取り出せるという。

管理画面からRAIDの初期化、フォーマットを行なってしまうことで、中身のデータがなくなってしまう

 4つ目は、RAIDのディスクを取り外して自分で確認や復旧をしようとして壊してしまうケースだ。たとえば、一度すべてのディスクを取り外し、また取り付け直したときに、ディスクの順番が入れ替わってしまい、リビルドしてしまう場合などだ。また、人によっては、RAIDのディスクを取り出し、ほかのPCにつないで中身を確認しようとしてしまうこともある。このとき、Windowsがディスクのデータを認識できないことで「今すぐフォーマットしますか?」と表示され、うっかり「はい」をクリックしてしまい、ディスクが初期化されてしまうことがある。

 ディスクを取り外して壊してしまった場合、元の順番やRAIDアルゴリズムなどをすべて分析して修復する必要があるため、復旧の難易度は最も高いという。「復旧にはRAIDの復旧を得意とする業者に持ち込む必要があります」と笠嶋氏は指摘する。

他のPCに接続した結果、フォーマットされてしまう
このままリビルドした場合、ディスクの順番が書き換えられてしまい、復旧は著しく困難になる

 この4種類のうち、同社に持ち込まれることが最も多いのが、誤操作による初期化だ。

 以下、リビルドの失敗、正常でないシャットダウン、ディスク入れ替えの順となる。

いざというときに慌てて障害を大きくしないために

復旧に成功した「HDL-XR」シリーズ

 RAID6であれば、2台までのハードディスク障害に耐えられる。しかし、同社の最近の復旧事例としてあったのが、アイ・オー・データ機器の法人向けNASであるLANDISKの「HDL-XR」シリーズでのRAID6のケースだ。この事例では、RAID6を構成する4台のディスクのうち2台に同時に障害が発生し、そのディスクを交換してリビルドを実行している最中に、もう1台のディスクに異常が発生した。これにより4本のディスクとも中身が空になってしまったという。

 「この事例では、取り換えた元のディスク2台のほうのデータからクローンディスクを作り、RAID6をリビルドして、ほぼすべてのデータを吸い出しました」と笠嶋氏。2台で同時に障害が起き、同時に交換していたため、この方法が使えたという。また、2台の障害が不良セクタのみで、スクラッチ(盤面の傷)などがなかったことも幸いした。

 こうした事例からのアドバイスとして、笠嶋氏は「壊れたときには、そのまま安全にシャットダウンして、復旧を依頼してほしい」と説明する。企業では、障害が起きたときに、なんとしても早くデータを取り出したいということで、自力でなんとかしようと試み、傷を広げてしまうことがしばしばあり、その状態で復旧を依頼されることも多いという。

 「焦って、あまり詳しくない人が作業して、取り返しのつかないことになってしまうことがあります」と笠嶋氏。特に、専任の情報システム部門が置かれていない企業で、PCはある程度知っていてもNASについては詳しくない人が作業することがある。このとき、管理画面でどの項目を操作したらいいか試行錯誤しているうちに、初期化やRAIDレベルの変更などの操作を実行してしまうということがあるという。

 笠嶋氏は、「作業する人を決めて、取扱説明書を熟読しておいたほうがいい。また、障害が起きたときの手順をあらかじめ決めておいたほうがいい」とアドバイスする。

 リビルド失敗はハードウェアの問題もあり、防ぐのが難しい。これについては「普段からバックアップやミラーによって、NASが壊れてもデータが失われないようにしたほうがいい。NASに外付けディスクを接続して定期的にバックアップを取るのが、コストも低くおすすめです」と笠嶋氏は提案した。

 さらに、「また、ちょっとPCに自信があると、RAIDに障害があったときに、ディスクを1台取り外してPCにつないでデータを取り出せるんじゃないかと試して、データを壊してしまうことがある。そのようなことはせずに、われわれ専門家に依頼してほしい」と語った。


関連情報


(高橋 正和)

2012/8/27 11:00