使用Nagios监视企业集群-51CTO.COM

　　Nagios 简介

　　该部分演示如何安装 Nagios 并绑定 Ganglia。我们将向 Nagios 添加两个特性，帮助您监视标准集群、网格、云(以及任何扩展计算的功能)。这两个特性的作用是：

　　•监视网络交换机

　　•监视资源管理器

　　在本例中，我们将监视 TORQUE。完成之后，您将拥有一个控制监视整个数据中心系统的框架。

　　Nagios 与 Ganglia 一样，常用于 HPC 和其他环境，但是 Nagios 更加关注警告机制，Ganglia 则更加关注收集和跟踪指标。Nagios 以前只是从目标主机收集信息，但最近开发了可以在主机上运行代理的插件。Nagios 内置了一个通知系统。

　　现在我们安装 Nagios 并安装基本的 HPC Linux® 监视系统集群以满足不同的监视需求：

　　•应用程序开发人员现在可以看到队列的饱和程度和运行作业的可用节点。

　　•系统失败时会警告 NOC，并在 Nagios Web 界面看到闪烁的红点。如果节点异常或者温度太高，NOC 还将收到电子邮件通知。

　　•系统工程师可以绘制数据，报告集群利用率，制定未来采购硬件的决策。

　　--------------------------------------------------------------------------------

　　安装 Nagios

　　在机器上安装 Nagios 的方法可以从 Internet 查询。因为我经常需要在不同的环境中安装，所以为此编写了一个脚本。

　　首先需要下载两个包：

　　•Nagios(测试了 3.0.6 版本)

　　•Nagios-plugins(测试了 1.4.13 版本)

　　插件包括：

　　•Nagios Event Log，可以监视 Windows 事件日志

　　•NRPE，提供了许多 Ganglia 功能

　　获取源代码并放在目录中。为了演示，我在 /tmp 中放置了三个文件：

　　•nagios-3.0.6.tar.gz

　　•nagios-plugins-1.4.13.tar.gz

　　•naginstall.sh

　　清单 1 展示了 naginstall.sh 安装脚本：

　　清单 1. naginstall.sh 脚本

　　#!/bin/ksh  
 
　　NAGIOSSRC=nagios-3.0.6  
 
　　NAGIOSPLUGINSRC=nagios-plugins-1.4.13  
 
　　NAGIOSCONTACTSCFG=/usr/local/nagios/etc/objects/contacts.cfg  
 
　　NAGIOSPASSWD=/usr/local/nagios/etc/htpasswd.users  
 
　　PASSWD=cluster 
 
　　OS=foo 
 
　　function buildNagiosPlug {  
 
　　if [ -e $NAGIOSPLUGINSRC.tar.gz ]  
 
　　then  
 
　　echo "found $NAGIOSPLUGINSRC.tar.gz building and installing Nagios"  
 
　　else  
 
　　echo "could not find $NAGIOSPLUGINSRC.tar.gz in current directory."  
 
　　echo "Please run $0 in the same directory as the source files."  
 
　　exit 1  
 
　　fi  
 
　　echo "Extracting Nagios Plugins..."  
 
　　tar zxf $NAGIOSPLUGINSRC.tar.gz  
 
　　cd $NAGIOSPLUGINSRC  
 
　　echo "Configuring Nagios Plugins..."  
 
　　if ./configure --with-nagios-user=nagios --with-nagios-group=nagios  
 
　　-prefix=/usr/local/nagios > config.LOG.$$ 2>&1  
 
　　then  
 
　　echo "Making Nagios Plugins..."  
 
　　if make -j8 > make.LOG.$$ 2>&1  
 
　　then  
 
　　make install > make.LOG.$$ 2>&1  
 
　　else  
 
　　echo "Make failed of Nagios plugins. See $NAGIOSPLUGINSRC/make.LOG.$$"  
 
　　exit 1  
 
　　fi  
 
　　else  
 
　　echo "configure of Nagios plugins failed. See config.LOG.$$"  
 
　　exit 1  
 
　　fi  
 
　　echo "Successfully built and installed Nagios Plugins!"  
 
　　cd ..  
 
　　}  
 
　　function buildNagios {  
 
　　if [ -e $NAGIOSSRC.tar.gz ]  
 
　　then  
 
　　echo "found $NAGIOSSRC.tar.gz building and installing Nagios"  
 
　　else  
 
　　echo "could not find $NAGIOSSRC.tar.gz in current directory."  
 
　　echo "Please run $0 in the same directory as the source files."  
 
　　exit 1  
 
　　fi  
 
　　echo "Extracting Nagios..."  
 
　　tar zxf $NAGIOSSRC.tar.gz  
 
　　cd $NAGIOSSRC  
 
　　echo "Configuring Nagios..."  
 
　　if ./configure --with-command-group=nagcmd > config.LOG.$$ 2>&1  
 
　　then  
 
　　echo "Making Nagios..."  
 
　　if make all -j8 > make.LOG.$$ 2>&1  
 
　　then  
 
　　make install > make.LOG.$$ 2>&1  
 
　　make install-init > make.LOG.$$ 2>&1  
 
　　make install-config > make.LOG.$$ 2>&1  
 
　　make install-commandmode > make.LOG.$$ 2>&1  
 
　　make install-webconf > make.LOG.$$ 2>&1  
 
　　else  
 
　　echo "make all failed. See log:"  
 
　　echo "$NAGIOSSRC/make.LOG.$$"  
 
　　exit 1  
 
　　fi  
 
　　else  
 
　　echo "configure of Nagios failed. Please read $NAGIOSSRC/config.LOG.$$ for details."  
 
　　exit 1  
 
　　fi  
 
　　echo "Done Making Nagios!"  
 
　　cd ..  
 
　　}  
 
　　function configNagios {  
 
　　echo "We'll now configure Nagios."  
 
　　LOOP=1 
 
　　while [[ $LOOP -eq 1 ]]  
 
　　do  
 
　　echo "You'll need to put in a user name. This should be the person"  
 
　　echo "who will be receiving alerts. This person should have an account"  
 
　　echo "on this server. "  
 
　　print "Type in the userid of the person who will receive alerts (e.g. bob)> \c"  
 
　　read NAME  
 
　　print "What is ${NAME}'s email?> \c"  
 
　　read EMAIL  
 
　　echo  
 
　　echo  
 
　　echo "Nagios alerts will be sent to $NAME at $EMAIL"  
 
　　print "Is this correct? [y/N] \c"  
 
　　read YN  
 
　　if [[ "$YN" = "y" ]]  
 
　　then  
 
　　LOOP=0 
 
　　fi  
 
　　done  
 
　　if [ -r $NAGIOSCONTACTSCFG ]  
 
　　then  
 
　　perl -pi -e "s/nagiosadmin/$NAME/g" $NAGIOSCONTACTSCFG  
 
　　EMAIL=$(echo $EMAIL | sed s/\@/\\\\@/g)  
 
　　perl -pi -e "s/nagios\@localhost/$EMAIL/g" $NAGIOSCONTACTSCFG  
 
　　else  
 
　　echo "$NAGIOSCONTACTSCFG does not exist"  
 
　　exit 1  
 
　　fi  
 
　　echo "setting ${NAME}'s password to be 'cluster' in Nagios"  
 
　　echo " you can change this later by running: "  
 
　　echo " htpasswd -c $NAGIOSPASSWD $Name)'"  
 
　　htpasswd -bc $NAGIOSPASSWD $NAME cluster  
 
　　if [ "$OS" = "rh" ]  
 
　　then  
 
　　service httpd restart  
 
　　fi  
 
　　}  
 
　　function preNagios {  
 
　　if [ "$OS" = "rh" ]  
 
　　then  
 
　　echo "making sure prereqs are installed"  
 
　　yum -y install httpd gcc glibc glibc-common gd gd-devel perl-TimeDate  
 
　　/usr/sbin/useradd -m nagios  
 
　　echo $PASSWD | passwd --stdin nagios  
 
　　/usr/sbin/groupadd nagcmd  
 
　　/usr/sbin/usermod -a -G nagcmd nagios  
 
　　/usr/sbin/usermod -a -G nagcmd apache  
 
　　fi  
 
　　}  
 
　　function postNagios {  
 
　　if [ "$OS" = "rh" ]  
 
　　then  
 
　　chkconfig --add nagios  
 
　　chkconfig nagios on  
 
　　# touch this file so that if it doesn't exist we won't get errors  
 
　　touch /var/www/html/index.html  
 
　　service nagios start  
 
　　fi  
 
　　echo "You may now be able to access Nagios at the URL below:"  
 
　　echo "http://localhost/nagios"  
 
　　}  
 
　　if [ -e /etc/redhat-release ]  
 
　　then  
 
　　echo "installing monitoring on Red Hat system"  
 
　　OS=rh 
 
　　fi  
 
　　# make sure you're root:  
 
　　ID=$(id -u)  
 
　　if [ "$ID" != "0" ]  
 
　　then  
 
　　echo "Must run this as root!"  
 
　　exit

　　preNagios

　　buildNagios

　　buildNagiosPlug

　　configNagios

　　postNagios

　　运行脚本 ./naginstall.sh

　　该代码在 Red Hat 系统上能正常运行，如果您安装了本系列 Ganglia 和 Nagios，第 1 部分：用 Ganglia 监视企业集群中提到的所有依赖关系，那么应该也能正常运行。运行 naginstall.sh 时，提示 Nagios 应该发送警告的用户。稍后可以添加其他用户。大部分组织都有一个邮件别名以组的形式发送邮件。

　　如果安装时出现问题，可以查看 Nagios 网页(链接见参考资料)并将其添加到邮件列表。以我的经验看来，像 Nagios 和 Ganglia 这样成功的大部分包都很容易安装。

#p#

　　配置 Nagios

　　假设脚本运行正常并且已经安装了所有内容。那么在脚本成功退出时，您应该能够打开 Web 浏览器并看到 localhost 已经被监视了(如图 1 所示)：

　　通过单击 Service Detail，您可以看到我们监视本地机器上的哪些服务(比如 Ping、HTTP、加载、用户等等)，这是默认配置的。

　　让我们看看名为 Root Partition 的服务。该服务在根分区满时发出警告。通过查看安装时生成的配置文件，您可以完全理解该检查的工作方式。

　　主配置文件

　　如果使用 naginstall.sh 脚本，则主配置文件是 /usr/local/nagios/etc/nagios.cfg。该脚本展示几个带有其他定义的 cfg_files。其中的行如下：

　　cfg_file=/usr/local/nagios/etc/objects/localhost.cfg

　　如果查看该文件，您将看到所有用于 Web 视图中出现的 localhost 的服务。这就是配置默认服务的地方。根分区定义见第 77 行。

　　根分区检查方式的体系结构

　　首先要注意 Nagios 对象的继承模式。根分区的定义使用本地服务定义，本地服务定义则使用通用服务定义。这定义了调用服务的方式、频率以及其他可调试参数等等。

　　接下来重要的定义部分是使用的检查命令。首先它使用名为 check_local_disk 的命令定义。传递的参数是 !20%!10%!/。表示当 check_local_disk 命令定义报告 20% 时，它将发出警告。当它到达 10% 时，您将得到一个严重错误。/ 表示它检查 "/" 分区。check_local_disk 隐式调用 check_disk 命令，该命令位于 /usr/local/nagios/libexec 目录中。

　　这是设置这些配置的基本思路。您可以按照该思路创建自己的服务来监视所需的参数。有关更深入的内容，请阅读文档并尝试自己设置一些参数。

　　注册以收到警告

　　所有配置完成后，注册以收到警告。我们开始时已经完成了该操作，但是如果希望更改或添加用户，则可以修改 /usr/local/nagios/etc/objects/contacts.cfg 文件。将联系人名称改为您的名字，将电子邮件改为您的电子邮件地址。大部分基本的 Linux 服务器应该已经设置好，可以处理邮件了。

　　现在配置其他节点。

　　在 grid/cloud/cluster 中配置其他节点

　　我在 Dallas 数据中心有一组节点。我将创建一个目录放置所有配置文件：

　　mkdir -p /usr/local/nagios/etc/dallas

　　我需要通知 Nagios 我的配置文件将放在哪里。为此我修改 nagios.cfg 文件，添加以下行：

　　cfg_dir=/usr/local/nagios/etc/dallas

　　我将在此创建一组文件(很容易让人糊涂)。

　　根据该图继续进行其他设置和安装。

　　在 /usr/local/nagios/etc/dallas/nodes.cfg 文件中，我定义所有节点和节点组。我需要监视三种机器：

　　•网络服务器(本例中是运行 Ganglia 的 Linux 服务器)

　　•网络交换机(我的交换机包括高速交换机和 Gigabit Ethernet)

　　•管理设备(比如刀片式管理模块、老 IBM RSA 卡、BMC、可能的智能 PDU 等等)。

　　我创建三个相应的组，如下所示：

　　define hostgroup {  
 
　　hostgroup_name dallas-cloud-servers  
 
　　alias Dallas Cloud Servers  
 
　　}  
 
　　define hostgroup  
 
　　hostgroup_name dallas-cloud-network  
 
　　alias Dallas Cloud Network Infrastructure  
 
　　}  
 
　　define hostgroup  
 
　　hostgroup_name dallas-cloud-management  
 
　　alias Dallas Cloud Management Devides  
 
　　}

　　接下来我创建三个模板文件，三个节点组的节点共享通用特征：

　　define host {  
 
　　name dallas-management  
 
　　use linux-server  
 
　　hostgroups dallas-cloud-management  
 
　　# TEMPLATE!  
 
　　register 0  
 
　　}  
 
　　define host {  
 
　　name dallas-server  
 
　　use linux-server  
 
　　hostgroups dallas-cloud-servers  
 
　　# TEMPLATE!  
 
　　register 0  
 
　　}  
 
　　define host {  
 
　　name dallas-network  
 
　　use generic-switch  
 
　　hostgroups dallas-cloud-network  
 
　　# TEMPLATE!  
 
　　register 0  
 
　　}

　　现在我的每个节点定义为 dallas-management、dallas-server 或 dallas-network。各自的示例如下：

　　define host {  
 
　　use dallas-server  
 
　　host_name x336001  
 
　　address 172.10.11.1  
 
　　}  
 
　　define host {  
 
　　use dallas-network  
 
　　host_name smc001  
 
　　address 172.10.0.254  
 
　　}  
 
　　define host {  
 
　　use dallas-management  
 
　　host_name x346002-rsa  
 
　　address 172.10.11.12  
 
　　}

　　我生成了一个遍历节点列表的脚本，并使用我的 Dallas 实验室中的节点完全填充这个文件。当我重启 Nagios 时，将检查这些节点是否可以到达。但是我还有其他一些服务!

　　您应该首先重启 Nagios 保证设置完成。如果已经完成，则应该在 HostGroup Overview 视图下看到一些组。如果有错误，则运行：

　　/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

　　这将验证文件并帮助您发现错误。

　　现在可以添加一些基本的服务了。根据 localhost 中的模板，较容易完成的是查看 dallas-cloud-servers 组上的 SSH。让我们启动另一个文件：/usr/local/nagios/etc/dallas/host-services.cfg。最简单的是将配置从希望监视的 localhost 中复制出来。我就是这样做的，并添加了一个依赖关系：

　　define service{  
 
　　use generic-service  
 
　　hostgroup_name dallas-cloud-servers  
 
　　service_description SSH  
 
　　check_command check_ssh  
 
　　}  
 
　　define service{  
 
　　use generic-service  
 
　　hostgroup_name dallas-cloud-servers  
 
　　service_description PING  
 
　　check_command check_ping!100.0,20%!500.0,60%  
 
　　}  
 
　　define servicedependency{  
 
　　hostgroup_name dallas-cloud-servers  
 
　　service_description PING  
 
　　dependent_hostgroup_name dallas-cloud-servers  
 
　　dependent_service_description SSH  
 
　　}

　　如果 PING 无法正常工作，我不会考虑测试 SSH。现在开始可以添加各种内容了，但我们再看看其他东西。重启 Nagios 并测试菜单，以确保看到 ping 和 ssh 检查了节点：

　　service nagios reload

　　如果一切正常，我们将开始进入有趣的部分 —— 集成 Ganglia。

#p#

　　集成 Nagios 报告 Ganglia 指标

　　Nagios Exchange 是另一个获取 Nagios 插件的好地方。但是对于我们的 Ganglia 插件，只要从 Ganglia 和 Nagios，第 1 部分：用 Ganglia 监视企业集群中下载的源代码中查找。假设您将源代码解压到 /tmp 目录中，剩下的只需要复制 contrib 目录中的 check_ganglia.py 脚本即可：

　　cp /tmp/ganglia-3.1.1/contrib/check_ganglia.py \  
 
　　/usr/local/nagios/libexec/

　　check_ganglia 是一个很棒的 Python 脚本，可以运行于 gmetad 运行的服务器上(在我的示例中是 Nagios 运行的管理服务器)。让我们在端口 8649 上查询 localhost。使用这种方法，您可以通过远程命令扩展网络通讯：可以使用 Ganglia 的扩展技术实现!

　　如果运行 telnet localhost 8649，您将看到从节点收集的数据中生成大量输出(假设按照第 1 部分安装了 Ganglia 并能正常运行)。让我们监视一些 Ganglia 提供的内容。

　　进入 /var/lib/ganglia/rrds 目录，您可以看到每个主机的度量指标。生成了易于查看的图形，您可以一直分析指标。我们将度量 load_one 和 disk_free，由于在第 1 部分中我们启用了 IPMI 温度度量，我们将同样添加该度量。

　　创建 /usr/local/nagios/etc/dallas/ganglia-services.cfg 文件并添加服务：

　　define servicegroup {  
 
　　servicegroup_name ganglia-metrics  
 
　　alias Ganglia Metrics  
 
　　}  
 
　　define command {  
 
　　command_name check_ganglia  
 
　　command_line $USER1$/check_ganglia.py -h $HOSTNAME$ -m $ARG1$ -w $ARG2$ -c $ARG3$  
 
　　}  
 
　　define service {  
 
　　use generic-service  
 
　　name ganglia-service  
 
　　hostgroup_name dallas-cloud-servers  
 
　　service_groups ganglia-metrics  
 
　　notifications_enabled 0  
 
　　}  
 
　　define service {  
 
　　use ganglia-service  
 
　　service_description load_one  
 
　　check_command check_ganglia!load_one!4!5  
 
　　}  
 
　　define service {  
 
　　use ganglia-service  
 
　　service_description ambient_temp  
 
　　check_command check_ganglia!AmbientTemp!20!30  
 
　　}  
 
　　define service {  
 
　　use ganglia-service  
 
　　service_description disk_free  
 
　　check_command check_ganglia!disk_free!10!5  
 
　　}

　　重启 Nagios 时，现在可以根据 Ganglia 指标发出警告!

　　提醒：check_ganglia.py 命令仅在阈值过高时发出警告。如果希望在阈值过低时发出警告(在 disk_free 中是这样)，则需要修改代码。我更改了文件的最后部分，如下所示：

　　if critical > warning:  
 
　　if value >= critical:  
 
　　print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)  
 
　　sys.exit(2)  
 
　　elif value >= warning:  
 
　　print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)  
 
　　sys.exit(1)  
 
　　else:  
 
　　print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)  
 
　　sys.exit(0)  
 
　　else:  
 
　　if critical >= value:  
 
　　print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)  
 
　　sys.exit(2)  
 
　　elif warning >= value:  
 
　　print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)  
 
　　sys.exit(1)  
 
　　else:  
 
　　print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)  
 
　　sys.exit(0)

　　现在重新加载 Nagios：

　　service nagios restart

　　如果一切正常，您应该看到 Ganglia 数据现在已经在 Nagios 的监视之下!

　　结合使用 Ganglia 和 Nagios，您可以监视任何内容。您可以控制整个云!

#p#

　　扩展 Nagios：监视网络交换机

　　随着云和虚拟化的流程，原来的 “网络管理员” 和 “系统管理员” 之间的界线更加模糊起来。忽视配置网络交换机和理解网络技术的系统管理员将面临过时的风险。

　　不用再担心完整性，我将展示如何扩展 Nagios 来监视网络交换机。使用 Nagios(而不是网络交换机供应商的解决方案)监视网络交换机的优点很简单 —— 使用 Nagios 您可以监视任何供应商的交换机。看到 ping 成功后，我们将探讨交换机上的 SNMP。

　　有些交换机默认启用 SNMP。您可以根据供应商的说明设置。要在 Cisco Switch 上设置 SNMP，请参考以下示例，我的交换机的主机名为 c2960g：

　　telnet c2960g  
 
　　c2960g>enable  
 
　　c2960g#configure terminal  
 
　　c2960g(config)#snmp-server host 192.168.15.1 traps SNMPv1  
 
　　c2960g(config)#snmp-server community public  
 
　　c2960g(config)#exit  
 
　　c2960g#copy running-config startup-config

　　现在看看能够监视的内容，运行 snmpwalk 并将其导出到文件：

　　snmpwalk -v 1 -c public c2960g

　　如果一切正常，您将看到许多内容传递回来。然后可以捕获输出并查看各种要监视的位置。

　　我还有一个交换机示例。当我运行 snmpwalk 命令时，我看到端口以及做标记的方式。我对以下信息很感兴趣：

　　•MTU(IF-MIB::ifMtu.)。

　　•端口运行速度(IF-MIB::ifSpeed.)。

　　•端口是否正常(IF-MIB::ifOperStatus.)。

　　为了监视这些内容我创建了一个新文件，/usr/local/nagios/etc/dallas/switch-services.cfg。我将网络主机映射到交换机，因此我对所有事情了如指掌。建议您也这样做。如果想体验真正的云计算，就应该了解所有资源的状态。

　　我将使用节点 x336001 作为示例。我知道它位于端口 5。我的文件如下所示：

　　define servicegroup {  
 
　　servicegroup_name switch-snmp  
 
　　alias Switch SNMP Services  
 
　　}  
 
　　define service {  
 
　　use generic-service  
 
　　name switch-service  
 
　　host_name smc001  
 
　　service_groups switch-snmp  
 
　　}  
 
　　define service {  
 
　　use switch-service  
 
　　service_description Port5-MTU-x336001  
 
　　check_command check_snmp!-o IF-MIB::ifMtu.5  
 
　　}  
 
　　define service {  
 
　　use switch-service  
 
　　service_description Port5-Speed-x336001  
 
　　check_command check_snmp!-o IF-MIB::ifSpeed.5  
 
　　}  
 
　　define service {  
 
　　use switch-service  
 
　　service_description Port5-Status-x336001  
 
　　check_command check_snmp!-o IF-MIB::ifOperStatus.5  
 
　　}

　　完成后，重启 Nagios，您会发现现在我可以查看交换机了：

　　这只是如何监视交换机的一个示例。注意，我没有设置警告，也没有指出关键动作。您可能还注意到了，在 libexec 目录中还有一些选项可以完成类似的功能。check_ifoperstatus 以及其他内容也需要技巧。使用 Nagios 时，可以使用多种方式完成一个任务。

#p#

　　扩展 Nagios：报告监视 TORQUE 的作业

　　可以根据 TORQUE 编写许多脚本来确定该队列系统的运行方式。在该扩展中，假设您已经安装了 TORQUE。TORQUE 是一个可以与 Moab 和 Maui 结合使用的资源管理器。可以参考 Colin Morey 编写的开源 Nagios 插件。

　　下载并将其放在 /usr/local/nagios/libexec 目录，确定它可以执行。我必须稍微修改代码，将安装 Nagios 的目录从 use lib "/usr/nagios/libexec"; 更改为 use lib "/usr/local/nagios/libexec";。我还必须将 my $qstat = '/usr/bin/qstat' ; 更改为 qstat 命令。我的命令如下所示：my $qstat = '/opt/torque/x86_64/bin/qstat' ;。

　　验证它能运行(我使用的队列名为 dque)：

　　[root@redhouse libexec]# ./check_pbs.pl -Q dque -tw 20 -tm 50  
 
　　check_pbs.pl Critical: dque on localhost checked, Total number of jobs  
 
　　higher than 50. Total jobs:518, Jobs Queued:518, Jobs Waiting:0, Jobs  
 
　　Halted:0 |exectime=9340us

　　您可以使用 -h 选项显示更多要监视的内容。现在将它放置到配置文件 /usr/local/nagios/etc/dallas/torque.cfg：

　　define service {  
 
　　use generic-service  
 
　　host_name localhost  
 
　　service_description TORQUE Queues  
 
　　check_command check_pbs!20!50  
 
　　}  
 
　　define command {  
 
　　command_name check_pbs  
 
　　command_line $USER1$/check_pbs.pl -Q dque  
 
　　-tw $ARG1$ -tm $ARG2$  
 
　　}

　　重启 Nagios 之后，将在 localhost 下显示该服务。

　　在我的例子中，我收到了一个严重警告，因为我的队列中有 518 个作业!

　　显然，跟踪 TORQUE 和脚本有很多方式。您可以使用 pbsnodes 通知节点状态。人们应该更关心节点的运行位置以及运行的作业。这个小示例将展示各种可能性，以及如何在很短的时间内完成监视解决方案。

　　结束语

　　阅读了该系列之后，系统管理员应该能够轻松运行 Ganglia 和 Nagios，以前所未有的方式监视其数据中心。这两个包的范围非常广泛。我们在这里接触的只是与集群、网格和云基础结构相关的内容。

　　设置该监视解决方案的大部分时间都用于配置要监视的服务。许多现有的替代解决方案都是平台而不是成品。换句话说，它们提供框架来支持插件，但很少有预先建好的插件。大部分插件的工作由管理员和用户完成，这些工作往往非常繁琐。实际上，这就是大部分数据中心监视的内容。

【编辑推荐】

Nagios使用飞信Robot发送报警短信

配置nagios客户端

Nagios的安装配置记录