ラック
Home > ブログ > 記事 > 2016年1月 > GMOの障害に関して雑記

GMOの障害に関して雑記

カテゴリ: 雑記

昨日発生したGMOインターネット株式会社の障害。

順次復旧し、1/17(日) 12:00現在でほぼ復旧したようですが、半日~一日程度に渡り影響が出ていたようです。

■内容
・サービスサイトならびにコントロールパネルの表示不可
・当該サービスをご利用いただいている一部のお客様のウェブサイトの表示不可ならびにメールの送受信の不可

■原因
 電源設備の故障
当社複数サービスサイトの表示不可等の事象について - GMOインターネット株式会社

上記の通り、原因は電源設備の故障とのこと。

GMOのWebサイト及びお名前.comやかんたんサーバー、Conoha byGMOなど複数のサービスのサイトに渡り障害が発生しました。

 

個人的にはこれだけの数のサービスで障害が発生したというところが気にかかります。

直感的には、設備そのもの(配電盤の一区画など)に起因するような電源設備の故障で、大量のサーバがダウンしたのか…と考えられます。

しかし、サーバの高性能化と仮想マシンを一つのサーバに複数立てることができる今日においては、物理サーバが少数であったとしても、その中の仮想マシンが大量であれば物理的には小規模であってもその影響が大きくなる可能性はあります。

例えば、1つの無停電電源装置が故障したとき、その装置に接続しているサーバの中で各サービスのコントロールパネルを動かす仮想マシンが集中していたとすれば、物理的にはその一台のサーバがダウンすれば大量のサービスに障害が発生します。

こうした可能性を考慮して、

  • 複数のサービスを集中させずに分散させる
  • サブのサーバを用意して、メインサーバがダウンした場合は自動的にサブのサーバで処理を続行するような、「サーバクラスタリング」を行う
  • 物理サーバの電源を冗長化し、異なる電源設備から電源を供給するような配線を行う

などの対策を予め講じておくことが必要なのかな、と今回の件を受けて個人的には思いました。

こういうリスクマネジメントは人事ではないので、「もし自分だったらどうするか」ということを非常に考えさせられた次第です。

それと、直接サービスを動かしているサーバがダウンしていないとしても、DNSサーバがダウンしたら名前解決ができなくてユーザはサービスが動いているサーバまで到達できなくなる可能性も考えられます(よね?)。

もちろん、サーバ群があるLANの入り口であるゲートウェイがダウンしたらそれもアウトです。

そうしたネットワーク機器についても細心の注意を払う必要があると思われます。

 

…と、今回の件で色々と考えさせられたので自分用の備忘録として記しておきます。

タグ: サーバ環境・構築

 



関連する記事一覧