Gmailの大規模障害、転送用サーバの過負荷が原因


 Googleは、1日に発生したGmailの大規模障害の原因は、同社がリクエストルータと呼ぶサーバーの過負荷が原因だったことを明らかにした。

 Gmail公式ブログによると、米国時間1日朝に定期的なサーバーのアップデートを実施するために、一部のサーバーをオフラインにしたことが障害の発端となったという。この作業自体は定期的なもので問題は無かったが、この際にトラフィックを他のサーバーに転送するためのリクエストルータが過負荷状態になり、さらにこれらのリクエストルータから他のリクエストルータにトラフィックが転送されたことで、数分で全てのリクエストルータが過負荷状態になってしまったという。

 リクエストルータの過負荷を招いた原因については、最近設定を変更した際に、負荷を過小評価していたためと説明。Gmailのエンジニアリングチームでは、リクエストルータを追加して負荷を分散してサービスを復旧させており、今後はさらに信頼性向上と再発防止に取り組むとしている。

【お詫びと訂正 9/3】
 記事初出時、障害の原因を「ルータの過負荷」と記載していましたが、正しくはGoogleが「リクエストルータ」と呼んでいる転送用サーバーの過負荷が原因のため、記事内容を修正しました。お詫びして訂正いたします。


関連情報

(三柳 英樹)

2009/9/2 14:57