ども。
睡眠時にネックウォーマーをしてみたところ、肩こりが幾分和らいだ担当ちゅんです。
9月に発生した大規模停電(ブラックアウト)では、様々なトラブルに見舞われました。中でも腑に落ちないのが「仮想サーバがダウンした」トラブルです。
前提条件として、当たり前ですが仮想サーバをホストしている物理サーバやストレージ、スイッチは全て無停電電源装置(UPS)に接続され、そのUPSのバッテリーが尽きる前に庁舎の自家発電設備からの給電に切り替わるようにしてあります。こちらの想定では、仮に停電してもサーバはダウンせずに起動を続けられるようにしてありました。
しかし、今回の停電では物理サーバは正常に稼働を続けていたにも関わらず、Hyper-Vで動かしていた仮想サーバのうち、いくつかのサーバだけがダウンしてしまいました。手動で再起動をかけると無事に起動してくれたので事なきを得たのですが、止まってしまったことがショックでした。
その後、サーバの保守業者さんとともに原因の調査を進めました。停電の前後に記録された機器のシステムログを確認すると、どうやらストレージのNICがリンクダウン・リンクアップを繰り返している状況が記録されていたようです。つまり、仮想サーバのデータが保存されたディスクが急に取り外された状態となり、サーバが停止してしまったということのようです。
このことから、業者さんからは「もしかしてストレージがUPSに接続されていなかったのではないですか?」と質問されましたが、確認してみると間違いなくUPSに接続されていました。そもそも、これまでも庁舎が停電することはありましたし、その際にストレージがダウンしたことなどありませんでした。
ここで、業者さんから「もしかしたら」と仮説が。ストレージがダウンしたのは停電が直接の原因ではなく、停電に至るまでのわずかな間に電力供給が不安定になったことに起因しているのではいか、とのこと。はっきりした原因は結局のところわかりませんが、もしこの仮説が正しければ、我々にはどうすることもできなかったということになります。
ちなみに、この同様のトラブルは役場だけではなく、別な場所の仮想サーバでも発生しました。こうなるとますます謎が深まります。いずれにしても、やはり「万が一止まった時にどう復旧させるか」が大切なのであり、そういう意味でICT-BCPの重要性を再認識しています。
この画面を見たときは、一瞬目の前が真っ暗になりました。
(投稿者:ちゅん)