猛暑でサーバー障害、そうなる前に確認すべきこと~データ復旧.comに聞く


 今年も暑い夏を迎え、コンピューターや周辺機器には厳しい季節となった。24時間動き続ける企業内のサーバーにとって、熱や電力問題は、システムダウンや故障に直結する。今年はさらに、節電の必要性が語られ、地域によっては計画停電の可能性もあるなど、よりシビアな夏となりそうだ。

 故障したサーバー自体は立て直すことができても、データが失われると企業にとって死活問題ともなりかねない。夏の企業サーバーで起こるディスク関連の障害について、データ復旧サービス「日本データテクノロジー」(サイト名は「データ復旧.com」)を提供するOGID株式会社にて、エンジニアの岩谷謙太氏と西原世栄氏に話を聞いた。

暑い夏に備えて、サーバーの設置状況を確認しておこう

岩谷謙太氏
約1万個のパーツをストックして、修理や分析に役立てているという

 実際に、同社でも例年、夏になると依頼件数が増えるという。昨年は冬に比べると5割程度の増加があったそうだ。

 夏に障害が増える主な原因としては、気温上昇による熱、急な電源断、お盆休みのシステム停止による障害の顕在化の3つがあるという。

 気温上昇による熱は、ハードディスクのヘッドやプラッター、基板などで物理障害を起こす原因になる。主に物理障害の復旧を担当する岩谷氏は、「ハードディスクでまず影響があるのは、基板の電子回路部分ですね。また、ヘッドの先端にはヒーターが内蔵されており、熱膨張を利用してプラッターに近づく性質があるため、仮説ではありますが、ヘッドがプラッターから浮く高さも気温で変わってくると考えられます。ですので、高温によりヘッドがプラッターに接触して破損することもあり得ます。夏には、基板の障害もヘッドの障害も1割程度増えます」と説明する。熱による障害の場合は、RAIDを組んだ複数のハードディスクが同じ壊れ方をする例が多いのも特徴だそうだ。

 基板上のチップが熱を持って焦げてしまっていることもあるという。この場合には基板を交換することになるのだが、ハードウェアを制御するROMは、同じモデルのハードディスクでもロットや個体によって異なる。「基盤に付いているROM内の情報を復元するためには、ROM内の情報を解析しなければなりません。」(岩谷氏)。約1万個のパーツと数万種類のファームウェアを保存し、豊富なノウハウを持つ同社の強みだ。

 データセンターであれば温度や通気が管理されているが、実際の企業では百人以上がアクセスするサーバーがオフィスの片隅に置かれていることもままある。オフィスのレイアウトによっては、通気が悪くサーバーの熱がこもることもある。場合によっては、エアコンが止められてしまうことまである。「サーバーのファンが故障していたり、通気孔にホコリが詰まっていたりすることもあるので、まずはサーバーと設置状況を実際に目で確認しておいたほうがよいでしょう」(岩谷氏)。

 熱の問題のほかにも、サーバーが隅に設置されているような場合には、RAID 5を構成するディスクの1台にエラーがあっても気付かないでいるケースもあるという。RAID 5では1台までの障害を吸収するため、通知でもクリティカルなものとして扱われず見落とされがちだというが、次の1台に障害が起きたらアウトだ。RAIDなどの論理障害を主に担当する西原氏も「まず一度はディスクの障害が起きていないか確認しておくとよいでしょう」とアドバイスする。

出荷数の少ないサーバー向けディスクも対応

西原世栄氏

 一方、急な電源断は主に、管理情報の不整合など論理障害の原因になる。夏には、雷などの影響で、電源の瞬断や停電などが起こりがちだ。電力状況に不安のある今年は、それでなくても電源は心配なところだ。ハードディスクの書き込み中に電力供給が止まってシステムがダウンすれば、管理情報の不整合を起こすことになる。

 急な電源断に備えるには、UPSを導入するのが定石だ。ただし西原氏は、「UPSはバッテリーで長時間動作させるようにはできていません。あくまで正常にシャットダウンさせるための機器なので、そのための設定をしてください」と注意を呼びかける。

 もうひとつ、夏に特徴的な障害として、お盆休みで停止したシステムが休み明けに起動しなくなるケースがあるという。サーバーに物理障害などがあっても、障害個所に触れない限りは問題が出なかったりするのだが、それがシステムの停止や起動など大きな動作をさせたときに表面化するわけだ。

 実際の障害はさまざまで、OSを起動するブートセクターに異常がある場合や、ディスクの不良セクターに停止や起動のときにアクセスしてしまう場合、ハードディスクの電源が入ったときにヘッドが弱っているのを検知して安全のためアクセスを禁止する場合などがあるという。

 この場合はハードウェアなどが少しずつ弱っていることが多く、対策としては日頃のバックアップということになる。「特に、休み前には意識してバックアップを取っておくとよいでしょう」(岩谷氏)。

 なお、企業向けのサーバーに採用されているディスクの復旧作業は、コンシューマー製品向けのディスクとは違った難しさがあるという。まず、高性能のために精密な構造になっており、たとえば同じ容量でもプラッターの径を小さくし枚数を増やして速度を上げるといった作りで、作業がより複雑になる。また、1つのモデルで市場に出ている数が少ない上、その機種専用のモデルになっている場合もあるという。

 岩谷氏が担当したケースでは、「移設中に衝撃を与えてしまったサーバーで、8台のディスクのうち5台に障害が発生したことがあった」。このときには、同社に部品のストックがなかったため、海外から1台約4万円のディスクを17台取り寄せて部品を取り出し、次々に試して適合する部品を探した。「同じモデルでも適合するものとしないものがあるので」。

 「それまでに復旧作業を経験していないモデルが持ちこまれる場合もあります。その時には、同じモデルを購入し、研究と練習をした上で実際の復旧作業に入ります。」(岩谷氏)

 ハードウェアだけではなく、OSやファイルシステムも企業向けサーバーで独特のものが使われている場合がある。「HPのサーバーで、それまでに復旧経験がなかったファイルシステムの論理障害を修復したこともありました。そのときには、少し時間をいただいて、ファイルシステムの特徴を少しずつ解析して調べながら作業しました」(西原氏)。

夏に向けて作業エリアを改装

 同社自身もこの夏に向けて、作業エリアを改装した。ディスクの復旧のためにクローン(コピー)を作る作業場をクリーンルームから出し、通気のよい場所に移した。クローン作業中のディスクは2つのファンで挟んで冷却している。

 復旧を依頼するときの心得について尋ねると、岩谷氏も西原氏も「できるだけ手を加えず、そのままの状態で持ってきてほしい」と答えた。

 「特にRAIDのデータ障害は、自分でいろいろ試してしまいがちですが、できるだけその前に相談してほしい」と西原氏。よくあるのが、サーバーの管理を専門に行っていて経験も豊富な担当者が、自分の経験だけで修復しようとして壊してしまうケースだという。

 「自分の知識に自信があると、つい直したくなってRAIDのディスクを組み替えてしまうようなことがあり、それで傷を広げてしまうことがあります」。作業した担当者が元の順番を覚えていないケースも多く、中にはディスクが1台足りない場合もあったそうだ。「その場合でも、ディスクを分析してセクター構造をExcel上に再現し、パリティ情報を探すなど、独自の技術で修復します」(西原氏)。

 データ復旧.comでは30分の無料診断を設けており、「壊れているかどうか自己診断する前にぜひ電話で相談してほしい」と言っている。実際の復旧にかかる費用や期間は、その診断の結果による。

ディスク復旧のためにクローン(コピー)を作成する作業場クローン作業中のディスクは2つのファンで挟んで冷却する

関連情報


(高橋 正和)

2011/7/11 11:00