てんちょです。ちゅん氏が出張のためワンオペとなっております。台風が迫っている地域へ行っていますが、はたして無事に帰ってこれるんでしょうか…。
先日、「インターネットに接続できない」という問い合わせがありました。端末自体はインターネット環境にありますがネットワークはホワイトリスト形式で管理しており、通常のインターネット閲覧は仮想環境上のブラウザを公開アプリケーションとして展開し使用しています。いつも違和感なく意識しないで使用していますが、この3層分離を超えた4層目の環境ってセキュリティ面も考えられていてすごく使いやすいですね。
今回接続できなくなったというのは、この仮想環境側にある公開アプリケーションのブラウザでした。これまで大きなトラブルもなかったので、その存在を忘れかけていた管理コンソールを確認してみると、4台のサーバのうち2台でCPU/メモリ使用率が100%近く張り付いている状態。この環境になってから(βモデルへ移行してから)2年弱経っていますが、これまでにここまで高負荷になったこともなく、安定して稼働していました。それが突然高負荷状態が続き、動作が不安定になってしまったようです。
高負荷状態に陥ったサーバにリモート接続しタスクマネージャからユーザーのプロセスを確認してみたところ、数名がタブを大量に開きリソースを食いつぶしているような状態でした。いったい何をしているのかと確認してみたところ、共通していたのは「気象情報」を見ていました。どうも雨雲や風速を表示するサイトが内部で複数動き大量のメモリを使用、表示にもCPU処理で負荷をかけた結果、たった数名(おそらく4,5人)でサーバを高負荷に追い込んだようです。
普段は、ユーザーを分散して振り分けてくれるあのクライアント管理ソフトが優秀なのか、サーバの性能がいいのか、まったくと言っていいほど気にすることなく使用していたこの環境。まさかこんなことで不安定になるとは。こういう場合は、気象情報の閲覧をできるだけやめてもらうのか、滅多にあることではないのでそのままでいいのか、対応に困ります。
それぞれの状況を一目で確認できる管理ソフトがあると便利ですね。
(投稿者:てんちょ)