特別企画

夏休み前後にありがちなRAID障害、傾向と対策は?

日本データテクノロジーに聞く

 今年の夏は、例年にも増して猛暑が予想されている。すでに、暑さに参る日々だが、24時間動き続ける企業内のサーバーやディスクにとっては、人間以上に苦しい季節ともいえる。

 特に回転し続けるハードディスクは、気温が高くなることで物理障害が増える。「夏は、春や秋よりも復旧依頼が10~20%程度増えます。特に今年は、暑くなるのが昨年より早く、依頼が大幅に増えると予測しています」と、データ復旧サービス「日本データテクノロジー」(サイト名は「データ復旧.com」)を手がけるOGID株式会社のエンジニアの西原世栄氏は語る。

 夏の暑さや長期休暇によるトラブルの傾向と、対策とは何か。そして、同社が作業効率と安全性を上げるために導入した新設備について、西原氏に話を聞いた。

暑さによる物理障害が、RAIDの論理障害も引き起こす

 夏は気温が高くなる。ハードディスクの最適温度は40度前後で、温度が高くなったり低くなったりすると、寿命が短くなるというデータが、メーカーなどから出されている。「気温が高くなると、ハードディスクの物理障害が増えます」と西原氏。

 その理由は、熱により、基板上のチップの故障やモーターの故障、ヘッドの故障、ひどい時にはプラッター(円盤)の変形が起こるためだ。「どの障害が多いというわけでもなく、同じ時期にいろいろな症状のハードディスクが持ち込まれます」(西原氏)。さらに、基板のチップが壊れたことによりヘッドやモーターの動作がおかしくなって、症状がより重症になることもある。

 こうした場合に備えて、企業などのシステムでは、RAID構成にしてディスクの冗長性を持たせる。ただし、RAIDは万能ではない。「夏には、物理障害がきっかけとなり、論理障害が併発する合併症が多くなります」。

 RAIDの論理障害としては、RAIDの管理情報やブート情報が破損したり、誤ったリビルドによってデータが破損したりというケースがある。西原氏によると、例えばRAID 5を構成するディスクの1台に物理障害が発生した結果、誤ったデータがほかのディスクにも書き込まれる場合があるという。「RAIDにおける物理障害と論理障害の合併症では、まず物理障害を直してクローンをとり、そのあとで論理障害を分析して直す、という手順となります」(西原氏)。

手前右が西原世栄氏

 物理障害からの復旧においては、知識や経験だけでなく、修復のための部品のストックも重要となる。モデルが異なると部品が異なるのはもちろん、同じモデルでもファームウェアやヘッドなどバージョンによって部品が異なってくるという。「弊社では累積2万台以上の部品をストックしているため、さまざまなハードディスクの物理障害に即時、対応できます」と西原氏は自信を見せた。

 夏場のRAID障害への対策として、西原氏は「こまめにバックアップをとるのが、普遍的な対策」と語る。また、夏の暑さについては、「オフィスで動いているファイルサーバーなどをクーラーで冷やすと同時に、扇風機などで空気の流れを作ってやることも必要」と説明する。

 そのほか、例えばRAID 5では1台のハードディスクが壊れても動き続けるため、気が付かずにそのまま動かしているケースもあるという。この状態でもう1台のディスクに障害が起きると、データが失われてしまう。「1台が壊れたまま動かしてもう1台が壊れた時には、復旧のためのデータの分析も難易度が上がります。1台が壊れたら、すぐ対応する必要があります」。

休暇明けに電源を入れたらRAIDがエラー?

 一方、夏にはお盆など企業の長期休暇の時にサーバーの電源を落とし、休み明けに再度電源を入れた時に、RAIDがエラーになるケースも毎年見受けられるという。

 その理由のひとつには、サーバーに詳しいスタッフがいない中小企業などでは、NASの電源をちゃんと落とす方法をとらないことによる障害も多いのではないかと西原氏は指摘する。「調べたわけではないが、終了方法がわからず“ボタン長押し”などの強制終了を使ってしまうことで、論理障害が起きるケースも多いのではないかと思います。きちんと、管理画面などからシャットダウンしてほしい」。

 西原氏は、「何かしらの障害が起きた時に、技術者だと、つい自分で復旧手段をいろいろ試してしまう。検索して調べた方法を順に試したり。気持ちはわかるが、多くの場合は成功せず、結局は復旧業者に持ち込むことになってしまう。試したことで、障害がより複雑になってしまうので、できるだけそのまま専門家に依頼してほしい」と強調する。

 特に、企業の長期休暇の時には、システムを止めてメンテナンスするケースも多い。「休み明け直前に起動しようとして立ち上がらないと、営業日までに自分でなんとかしようと焦り、バックアップやクローンを取らずにいろいろ試してしまうこともあるようです」(西原氏)。

 RAIDの障害の時にやってはいけないことと、やっていいことについて西原氏に尋ねると、「バックアップがない時に、ハードディスクの交換やリビルドは、やってはいけない。交換中に、障害を起こしたディスクとは別のディスクが壊れることもある。やってほしいことは、障害が起きた時の状況について情報を整理すること。復旧作業にあたって助かります」との回答だった。

新設備でディスクのクローンを高速化

 夏を前にした6月後半から、ちょうど同社では新しい設備を導入した。

 導入したのは、従来に比べ、約2倍の復旧スピードを実現する設備だ。通常、物理障害の発生したRAID機器の復旧では、物理障害を修復してから、RAID論理復旧を行う前に、ディスクイメージをそのまま吸い出してクローンディスクを作る。というのも、物理修復を実施しても、HDDは元通り動くようになるわけではなく、動作が不安定なため、復旧中の負荷に耐えきれず、また壊れてしまう場合があるからだ。同社では安全に復旧するため、同種の設備はもともと多数導入している。今回導入したシステムは、データの転送速度を大幅にアップした機種だ。

 クローンの速度が上がることにより、作業時間を短縮できる。それだけでなく、復旧作業による二次障害を減らすことにもなるという。「例えば、物理障害でヘッドを交換した場合、そこでクローンを作ってデータを確認します。しかし、動くようにしただけで、人間でいえば手術したばかりの病人にあたるので、できるだけ動作時間を短くしたい。クローンにかかる時間が短くなれば、それだけ二次障害が起きる確率が下がります」と西原氏は説明する。

 西原氏によると、従来の機種ではディスク自体ではなく転送速度がボトルネックとなっており、転送を高速化することでクローンの作成時間が約半分になったという。なお、ディスク自体の動作は変わらないため、負荷が増える心配はない。

 この新機種は、国内初の導入になるという。同時に多数を導入したため、数千万円をかけたと西原氏は説明する。「設備が足りないことによって、急ぐためにクローンをとらずに作業する、ということがあっては危険です。弊社では必ずクローンをとって作業します。“1秒でも早く、1つでも多くのデータを最も安全に復旧する”ために投資に踏み切りました」。

 その結果、実際の復旧作業に入る前段階のハードディスクの量が大幅に減った。「大至急の復旧依頼についても、復旧時間が短くなり、依頼主の業務が停止している時間が短くなりました」と西原氏。「これから夏に入って依頼件数が増えても、それに応えられるようになりました」と、新設備導入の効果を語った。

高橋 正和