米Google、5月11~13日のGmail不具合の原因を発表


 米Googleは2日、5月11日から13日にかけて、Gmailのパフォーマンスが大きく低下した理由について、Google Apps利用者に説明するためのインシデントレポートを公開した。

 同社ではこの件について謝罪し、再発防止策を取ると共に、ロードバランスアルゴリズムの欠陥が原因だったと説明している。

 Googleによると、5月11日午前7時2分(太平洋時間)に、Gmailユーザーの約5%が、パフォーマンスの低下と待ち時間の増加を感じ始めた。このトラブルは、米国でトラフィックがピークになる時間帯で多くのユーザーに認識され始め、最終的には5月13日午前8時50分(太平洋時間)に問題が最終的に解決されるまで続いたが、データの損失はなかった。

 トラブルの原因は、ロードバランスのアルゴリズムに問題があったという。Googleでは、あるGmailサーバークラスターの定期メンテナンスの準備のため、5月11日にそのクラスターから他のGmailサーバークラスターにユーザーを転送し始めた。これによって、他のGmailサーバークラスターに付加的な負荷がかかることになったが、この際クラスター間の負荷バランスに使用されていたアルゴリズムに欠陥があり、いくつかのクラスターが過負荷状態になり、トラブル発生に至ったという。

 トラブル対処のため、Googleでは定期メンテナンスが終了するまで手動でロードバランスを調節。メンテナンスが終わり、アップデートされたGmailサーバークラスターが稼働し始めると、問題は解決したとしている。

 Googleでは改善策として、ロードバランスアルゴリズムをユーザー地域による予測ピーク負荷に対応できるよう改良すると同時に、Gmailサーバークラスターに負荷が増加した時のリソース使用率を評価したい、としている。また、Gmailサーバクラスターの大規模なメンテナンスは、今回のようなピーク時間を避け、週末等に行うことにすると説明している。


関連情報

(青木 大我 taiga@scientist.com)

2010/6/3 11:20