特別企画
ソフトより専門エンジニアのRAIDデータ復旧率が高い理由
年間1000件以上のRAID機器を復旧する日本データテクノロジーに聞く
(2013/4/8 12:43)
RAIDの障害には、RAIDを構成するハードディスクのヘッドやモーターに故障が起きる物理障害と、管理情報(RAIDレベルやHDDの順番、パリティサイズ、アルゴリズム)に不整合が生じて正常にデータの読み書きができなくなる論理障害がある。
このうち、論理障害については、復旧のためのソフトが何種類か市場に流通している。一方、ソフトを使わずに「データ復旧エンジニアの熟練技術」で復旧を請け負うサービスもある。復旧ソフトと復旧サービスの違いについて、データ復旧サービス国内大手の「日本データテクノロジー」(サイト名は「データ復旧.com」)のエンジニアで、官公庁等のRAID・サーバー復旧も多く経験している西原世栄氏に話を聞いた。
経験を積んだ人間に推測できることがソフトに推測できない
西原氏は、「弊社ではRAID障害もハードディスク障害もデータ復旧ソフトを使いません」と断言する。同氏によると、データ復旧ソフトで直せる障害は論理障害の3〜5割程度。「復旧ソフトで直せるものは直せる、弊社はそうでないものも直す、ということです」と語る。
論理障害とは、RAIDやハードディスクの管理情報が正常な状態でなくなってしまっている状態だ。これを直すには、管理情報を元に戻す必要がある。元の情報が分かっているのであればそのまま書き換えれば良いが、ほとんどの場合そうはいかない。なぜなら、壊れる直前の状態を把握している人がいないからだ。
データ復旧ソフトの場合、「よくある障害パターン」を元に管理情報を書き換え、復旧作業を行う。しかし、「それで復旧できる可能性は3〜5割程度」(西原氏)。これは、数千・数万と無限にあるRAID管理情報のパターンを網羅するソフトを開発することなど現実的に考えて不可能だからだという。
それに対し、復旧技術者の行う復旧作業は、正常でないデータから元のデータを推測して管理情報を書き換える。「知識と経験を積んだ人間であれば正常でないデータを見て元の情報を推測できますが、データ復旧ソフトでは推測できないことがあります。そもそも、このようにデータから逆算できることすら知らないエンジニアやデータ復旧業者が多いのが実情です。こうした復旧方法は、累積7万5000件以上のデータ復旧を行ってきたからこそ分かることです」(西原氏)。
西原氏は例として、フォルダーのツリー階層の深いところにあるファイルの復旧を挙げる。「例えば、『よくある例』に則って計算した結果、2階層目まではフォルダー階層を読めても、3階層目のフォルダーを読めない、ということがあります。復旧ソフトの場合、3階層目が読めなければフォルダー階層を探るのはそこまでとなりますが、我々の場合は、同じく3階層目が見られないとき、4階層目のフォルダーの情報を見つけてそこから3階層目を推測するなど、さまざまなヒントから仮説を立てて元の状態を推測し復旧します」。
さまざまな手がかりから出口を見つける様子は、“脱出ゲーム”のようだ。「膨大な復旧実績がものをいう部分です。データ復旧ソフトや経験の少ない業者との大きな違いですね」。
ソフトでの復旧が症状を悪化させることも
西原氏はさらに、「データ復旧ソフトではリスクが大きいのも、ソフトを使わない理由です」と説明する。ソフトにプログラミングされていないパターンの障害が起きたハードディスクにデータ復旧ソフトをかけたところ、障害とは合わない方法の計算をソフトが誤ってしてしまい、間違った情報に書き換えてしまうケースがあるという。
この場合、症状がより悪化して復旧が難しくなる。復旧作業自体はディスクのクローンをとってから行うとはいえ、復旧に失敗するとまた障害のあるオリジナルディスクからクローンをとり直すことになる。オリジナルディスクは既に障害が発生しているため、そこから何度もクローンディスクをとるのは危険だ。こういった理由から成功するかどうかわからない方法はとりづらい。
同社にも、ユーザー(もしくは他のデータ復旧業者)がデータ復旧ソフトで復旧を試みた結果、さらに症状を悪化させてしまったディスクが持ち込まれることがあるという。
「例えば、4本のハードディスクでRAIDが組まれている場合、ハードディスクの順番は1、2、3、4のどれかになります。障害が発生しているハードディスクだと、この順番がバラバラになり、1、2、3、3(本当は4)だとか、1、2、6(3)、4といった具合になります。この場合、どのハードディスクがどの順番だか、なんとなくわかります。」
しかし、復旧ソフトで復旧を試みると、ディスクの順番が3(1)、2(2)、5(3)、1(4)だとか3(1)、3(2)、3(3)、4(4)といった風に書き変わってしまい、すぐにどのディスクが何番目だったかがわからなくなってしまうと、西原氏は指摘する。
「さらに悪いのは、復旧ソフトによって3(1)、2(2)、5(3)、1(4)といったように復旧された例です(イメージ図左下の状態)。一見、3番目のディスクが4になればすべてのディスクの順番が合うように見えてしまっていますが(イメージ図右下の状態)、本当は違います。このように管理情報が上書きされてしまうと、仮説・検証だけでは元の情報にたどり着くことが難しくなります。こうした場合は管理情報部分の分析をするのではなく、データ部分を分析する必要があり、難易度が大きく上がります。これができる業者はあまり多くありませんし、弊社のRAID担当者でも限られます。」
さらには、同じ障害でも復旧ソフトと業者とでは復旧できるデータの割合も変わるとのこと。「先程のフォルダー階層の例で言えば、ソフトの場合は第2階層までしか見られないため、階層はばらばらになってデータが出てきます。一方、手作業での復旧の場合、下の方の階層まできれいに出ることも。さらには、ファイルシステムをベースに復旧するのではなく、データをベースに復旧するため、出てきたデータの破損率(画像の虫食いや文字化けなど)も手作業の方が低くなります」。
とはいえ、ほかの方法で復旧できなかったディスクが持ち込まれるのは、それだけ重要なデータが入っているということだ。西原氏も、「そのようなディスクも、できるだけ復旧できるように取り組みます。ただ、見積り金額を見て、まずデータ復旧ソフトを試してみる、というお客様が多いのも事実です。ソフトで復旧できなかった結果持ち込むことになると、かえって復旧の難易度が上がり復旧が難しくなるため、高い見積りになったり復旧できなくなってしまいます。ソフトの方が業者に頼むより安価ではありますが、データのことを考えるのであれば最初から持ち込んでほしいと思っています」。
ハードウェアRAIDの障害復旧の経験が重要
こうした復旧ができる理由として、西原氏は、海外の技術者や研究者からの技術導入を挙げる。海外から技術員や研究員を招聘して研修を開いたり、日本から海外の研究施設を訪れて研修を受けたりしているという。
「詳しくは言えませんが、アメリカ・ヨーロッパ・アジアをはじめとした、世界中のさまざまな国の専門家と技術的に交流しています。あまりに出張が多いので、技術チームに配属されると、まずパスポートの期限を確認されるぐらいです(笑)。このように、常に新しい技術へのアンテナを張って、新しい技術を常にフォローしていくことで、さまざまな障害に対応できるようにしています。」
その結果として、「どんな物件にも対応できるのが強み」と西原氏は説明する。「RAIDの復旧ができますといっても、業者によっては、4台のRAIDしかやったことがないとか、RAID 6は復旧できないとか、ソフトウェアRAIDしか復旧できないというところもあります」。コンシューマーNASで使われるRAIDはほぼソフトウェアRAIDで、サーバーなどではハードウェアRAIDが使われる。「ソフトウェアRAIDは症状が似通っているのですが、ハードウェアRAIDはカードごとに障害パターンがある。それらのパターンを多く知りつつ、それぞれ診断して対応します」。
「弊社は1件ごとに症状を分析して復旧します。人に例えると、咳をしている人から相談を受けたとします。咳の原因がさまざまあるのに対し、データ復旧ソフトは、咳をしている人全員に同じ咳止めの薬を出すようなものです。薬が合わずに死亡する人はほとんどいませんが、HDDの場合画一的な復旧作業がHDDの状況を悪化させ、取り出せたはずのデータが取り出せなくなることが多く、最悪の場合、全くデータを復旧できなくなることもあります。それに対し弊社では、咳をしている原因を診断してその原因に応じた対応をします。こうした原因を正しく診断する技術があるからこそ、当社では95.1%の復旧率を保持しています」。
また、どんな物件にも対応するためには、設備の整備も大事だと西原氏は語る。「サーバーの復旧依頼が来ると、実際に同じ機種のサーバーを買ったりしているので、当社にはそれらがストックしてあります。購入は高価ですが、後の顧客に活かせる。こうした投資ができる企業規模と、ストックできる物理的な広さも強みのひとつです。データセンターなどからの依頼はディスク10本以上がほとんどですので、設備がないと対応できません」。
こうした背景もあり、またちょうど現在のオフィスビルが建て替えになることもあり、同社は4月にオフィスを全面移転する。移転先は歌舞伎座タワー。これにより復旧エリアの広さが1.5倍になる。ビル自体も東京タワーと同様のメガトラス構造をとり、電力が2系統から給電されるため、電力供給(停電)のリスクが減る。さらに、移転を機に、防犯カメラなどのセキュリティをさらに強化し、レイアウト変更により作業のときの行き来を減らして作業を効率化するという。「最近では預かった機器を1件1件バーコード管理しています。依頼主に安心してもらい、効率的に復旧したいと思っています」。
「RAIDデータ復旧に求められる技術はRAIDを構築・管理する能力とは全く異なります。当社では技術員より直接研修を受けたRAID専任のデータ復旧アドバイザーが多数在籍し、8時から21時まで無料相談を承っています。トラブル発生時はむやみにいじらずプロにご相談ください。」(西原氏)。