ZabbixでLinuxサーバの監視設定をご紹介します。
Zabbixにはシンプルチェック、snmpなどいろいろな監視方法がありますが、
今回はシンプルチェック、Zabbix-agentを利用して、死活(Ping)、CPU使用率、メモリ使用率の監視設定を
やっていきたいと思います。
環境
監視サーバ:Zabbix3.2.4
監視対象:CentOS7
Zabbixの監視方法
Zabbixには「アイテム」と「トリガー」という概念があります。
アイテムは値を取得します。たとえばPingを実行して「応答があった」や
いまCPUは「50%」使われているなどです。
トリガーはアイテムが取得してきた値に対してアラートを出すしきい値を決定します。
CPUが90%以上を確認するとアラートメールを出すなど。
今回はアイテム・トリガーの設定方法を確認していきます。
死活監視(Ping応答監視)設定方法
死活監視とは、監視対象のサーバが稼働しているかを監視することです。
単純に対象のサーバへPingを実行し、応答のがなければアラートを通知します。
死活監視アイテムの設定
Zabbixへログインし、「設定」→「ホスト」を選択し、監視を設定したい
ホストの「アイテム」選択します。
右上の「アイテムの作成」を選択します。
もろもろ設定します。
名前:死活監視(任意の名前)
タイプ:シンプルチェック
キー: icmppingloss[,5,,,1000]
データ型:数値(整数)
データの形式:10進数
単位:%
更新間隔:300 <– 情報取得の間隔です。300秒ごとに値を取得する意味になります。
ヒストリのの保存期間:90 <–取得した値の保存期間
トレンドの保存期間:365 <– 取得した値の1時間中の最大値、最小値、平均値、取得数の保存期間
「有効」にチェックがはいっていることを確認し、「保存」をクリックします。
値取得の確認は「監視データ」→「最新データ」から確認することができます。
死活監視トリガーの設定
アイテム設定がおわったらトリガーを設定します。
今回は3回パケットロスが90%続いたらアラートを出すという設定にします。
以下の内容を設定します。
名前:死活監視アラート {HOST.NAME}
※{HOST.NAME} はマクロといい設定したホスト名を自動で入力します。
深刻度:致命的な障害 <–任意で選択します
条件式:{TestServer:icmppingloss[,5,,,1000].last(3)}>99
有効にチェックが入っていることを確認し、「追加」をクリックします。
CPU使用率の監視方法
CPU使用率の設定は少し複雑で、アイテムで取得した値を計算しなければいけません。
原理としては「100%」 からCPUの「空き」をマイナスするとCPUの率を算出することができます。
CPUの空き(idle)取得アイテムの作成
同じく「アイテムの作成」より下記を入力します。
名前:CPU idle time(任意の名前)
タイプ:Zabbixエージェント
キー: system.cpu.util[,idle]
データ型:数値(浮動小数)
単位:%
更新間隔:300 <– 情報取得の間隔です。300秒ごとに値を取得する意味になります。
ヒストリのの保存期間:90 <–取得した値の保存期間
トレンドの保存期間:365 <– 取得した値の1時間中の最大値、最小値、平均値、取得数の保存期間
おなじく「有効」にチェックがはいっていることを確認し、「保存」をクリックします。
CPU使用率アイテムの作成(計算アイテム)
CPU使用率の計算用アイテムを作成します。
アイテムの中で”100-idle”します。
名前:CPU 使用率(任意の名前)
タイプ:計算
キー: CPUusage
式:100-last(“system.cpu.util[,idle]”)
データ型;数値(浮動小数)
単位:%
更新間隔:300 <– 情報取得の間隔です。300秒ごとに値を取得する意味になります。
ヒストリのの保存期間:90 <–取得した値の保存期間
トレンドの保存期間:365 <– 取得した値の1時間中の最大値、最小値、平均値、取得数の保存期間
CPU使用率のトリガー設定
CPU使用率のトリガーは下記の設定を行います。
今回はCPU使用率が95%以上になったらアラートが出るように設定します。
名前:CPU使用率しきい値超過 {HOST.NAME}
※{HOST.NAME} はマクロといい設定したホスト名を自動で入力します。
深刻度:致命的な障害 <–任意で選択します
条件式:{TestServer:CPUusage.avg(30m)}>95
有効にチェックが入っていることを確認し、「追加」をクリックします。
メモリ使用率の監視方法
メモリ使用率はアイテム一つで取得することができます。
名前:メモリー使用率(任意の名前)
タイプ:Zabbixエージェント
キー: vm.memory.size[pused]
データ型:数値(浮動小数)
単位:%
更新間隔:300 <– 情報取得の間隔です。300秒ごとに値を取得する意味になります。
ヒストリのの保存期間:90 <–取得した値の保存期間
トレンドの保存期間:365 <– 取得した値の1時間中の最大値、最小値、平均値、取得数の保存期間
メモリ使用率のアイテム設定
以下の内容を入力します。
上記内容を入力し、保存します。
メモリ使用率のトリガー設定
同じくトリガーを設定します。
メモリ使用率が95%以上になるとアラートを出すよう設定します。
名前:メモリー使用率しきい値超過 {HOST.NAME}
※{HOST.NAME} はマクロといい設定したホスト名を自動で入力します。
深刻度:致命的な障害 <–任意で選択します
条件式:{{TestServer:vm.memory.size[pused].avg(30m)}>95
有効にチェックが入っていることを確認し、「追加」をクリックします。
簡単ではありますが、基本的な死活・CPU使用率・メモリ使用率監視を
ご説明いたしました。
次回はスクリプトを利用した監視等ご紹介していきます。