皆さんは運用・保守業務で監視サーバは利用していますでしょうか。
私の業務では監視サーバとしてZabbixを利用しており、ネットワーク機器、サーバ機器の監視業務を実施しています。
Zabbixは状況に応じて柔軟なトリガーを設定することができ、とても便利です。少しなれが必要ですが、一度なれてしますととても簡単です。設定もWEBGUIで直感的に操作することができるので、すぐマスターすることができると思います。
Zabbixサーバで監視する対象の用途やスペックに応じて様々なトリガーを設定し運用負荷の低減や監視を強化していきましょう。
※以下よりアイテム取得実行を→ポーリングと表記します。
直近のポーリングにて判定する設定方法
Zabbixにはポーリングという動作があります。機器の状態をチェックしにいく間隔と覚えてもらって間違いありません。
このポーリングを調整することにより、監視の強度を調整することがあります。
下記の記述は直近1回のポーリングでPing応答がない場合アラートとして検知したい場合の書き方です。
{Testserver:icmpping.last(#1)}=0
とても重要な機器(ファイヤーウォール、メールサーバなど)で即対応が必要なときなど。監視のレベルを上げたいときに有効です。
一回でもPingの疎通ができない場合、即アラート発報という動きになります。
すぐにアラートとして検知したくない場合は#のあとの数字を変更します。
{Testserver:icmpping.last(#3)}=0
直近3回のポーリングすべてでPing応答がない場合アラートとして検知する動きになります。ネットワークの不可が高かったりサーバ自体の不可が高い場合にPingがコケることがありますが、少しは許容しますよといった感じです。WEBサーバなんかは少しくらい疎通ができなくても大丈夫ですよね(楽観)
ちょくちょく切れるけどすぐ復旧するなど、アラートが出すぎると鬱陶しいので、強度を下げる場合に有効です。
直近のポーリングの平均で判定する設定方法
直近のポーリングの平均で判定する場合はavgを使います。リソース(CPU,メモリ)の監視のときに有効です。
大きいファイルのアップロード、ダウンロードなどで急なリソースの上昇はちょくちょく発生するかと思います。
その度にアラートがでるとうざいですよねー。下記はCPU使用率の場合の記述方法です。
{Testserver:CPUusage.avg(30m)}>95
過去30分間の平均が95を上回ったときにアラートとして検知します。
CPU使用率やメモリ使用率の場合、処理が走ったタイミングに急に使用率が上がるので、
その度にアラートとして検知しないよう平均で設定すると便利です。
基本的な監視は上記の記述方法でカバーできるかと思います。他にもご紹介したいトリガーの記述方法は沢山ありますが、また次の機会にご紹介したいと思います。
以上、皆さんのお役に立てれば幸いです。