さくらインターネット、「さくらのクラウド」ストレージ障害の報告書を公開


 さくらインターネット株式会社は25日、パブリッククラウドサービス「さくらのクラウド」で続いていたストレージ障害について、障害内容の詳細に関する報告書と新ストレージの提供を発表した。

 「さくらのクラウド」は2011年11月15日にサービスを開始したが、12月9日に最初の障害が発生してから断続的に障害が発生していた。このため、さくらインターネットでは3月22日に「課金をさせていただける状況ではないと判断した」として、サービス品質改善まで利用料を無償とすることを発表。新規申し込みの受け付けも停止している。

 今回公開したストレージに関する報告書によると、当初はネットワークインターフェイスの問題として、ホストサーバーとストレージ間のトラフィック増により断続的にパケットロスが発生したことで、異常監視の仕組みによりストレージ装置が常用系から予備系に切り替わってしまう問題や、ストレージ装置においてネットワークインターフェイスが応答しなくなり、ネットワークが切れてしまう問題が発生していたという。

 これらの問題については解消したが、1月初旬からは共有ファイルシステム数が増加したことで、コマンドラインインターフェイスの応答が悪くなり、共有ファイルシステムの作成や削除も遅くなり、この対処のために行った緊急メンテナンス時にファイルを誤削除してしまう問題も発生したという。

 さらに、2月以降はユーザーの利用が本格化するに伴ってストレージへのアクセスが増大。ストレージ性能の限界に近付くと処理能力が低下する問題や、管理用ツールが利用できない状態となってしまう問題が発生。性能改善のためにツールを利用することができない状態となり、運用に多大な影響を及ぼすことになったとしている。

 さくらインターネットでは、3月12日に2台目のストレージ装置を追加。ユーザーに案内を進めて、移行が可能なサーバーについては2台目に移行してもらうことで、負荷の低減、分散を進めている。2台目のストレージ装置は6月25日まで障害は発生しておらず、1台目のストレージ装置についても負荷の低減が進むに連れて動作の安定が図られ、4月以降ディスクの接続断となる障害は発生していないという。

 さくらインターネットではこうした障害対応と運用の状況を踏まえ、現行のストレージをまったく別の新ストレージ装置に変更することにしたと説明。現行のストレージ装置では、性能限界におけるテストを十分行えなかったことや、仕様と動作についてエンジニアが全容を把握することができず、対処のための調査と確認に長い日数がかかってしまったことから、新ストレージ装置は自社エンジニアによる開発を行い、性能限界における動作の確認に加え、QoS設定機能も付加したという。

 新ストレージ装置は、6月25日からβテスト版(無料提供)として公開し、十分な性能が確保できたことを確認した後に、旧ストレージ装置からの移行とともに、新規ユーザー募集を再開するとしている。スケジュールとしては、当初のβテスト版ではディスクサイズを20GBに限定し、8月中旬に容量を拡大、9月以降に新ストレージを正式運用する予定としている。


関連情報


(三柳 英樹)

2012/6/26 13:16