如何编写Nagios插件

运维 系统运维
如何编写Nagios插件:什么是Nagios?如何使用Nagios监控Linux邮件服务器?首先应该从被监控的主机入手,在nagios配置文件。本文讲述的是如何编写Nagios插件

  如何编写 Nagios 插件

  Nagios 的最激动人心的方面是可以轻松地编写您自己的插件,只需要了解一些简单的指导原则即可。为了管理插件,Nagios 每次在查询一个服务的状态时,产生一个子进程,并且它使用来自该命令的输出和退出代码来确定具体的状态。退出状态代码的含义如下所示:

  OK —退出代码 0—表示服务正常地工作。

  WARNING —退出代码 1—表示服务处于警告状态。

  CRITICAL —退出代码 2—表示服务处于危险状态。

  UNKNOWN —退出代码 3—表示服务处于未知状态。

  最后一种状态通常表示该插件无法确定服务的状态。例如,可能出现了内部错误。

  下面提供了一个 Python 示例脚本,用于检查 UNIX® 平均负载。它假定 2.0 以上的级别表示警告状态,而 5.0 以上的级别表示危险状态。这些值都采用了硬编码的方式,并且始终使用最近一分钟的平均负载。

  Python 插件—示例工作插件

  1.   #!/usr/bin/env python  
  2.  
  3.   import os,sys  
  4.  
  5.   (d1, d2, d3) = os.getloadavg()  
  6.  
  7.   if d1 >= 5.0:  
  8.  
  9.   print "GETLOADAVG CRITICAL: Load average is %.2f" % (d1)  
  10.  
  11.   sys.exit(2)  
  12.  
  13.   elif d1 >= 2.0:  
  14.  
  15.   print "GETLOADAVG WARNING: Load average is %.2f" % (d1)  
  16.  
  17.   sys.exit(1)  
  18.  
  19.   else:  
  20.  
  21.   print "GETLOADAVG OK: Load average is %.2f" % (d1)  
  22.  
  23.   sys.exit(0)  
  24.  

  在编写了这个小的可执行插件之后,接下来是使用 Nagios 注册该插件,并创建一个检查平均负载的服务定义。

  这项工作也是非常简单的:使用下面的内容创建一个名为 /etc/nagios-plugins/config/mygetloadavg.cfg 的文件,根据下面的示例,向 services.cfg 文件添加一个服务。请记住,必须在 hosts.cfg 配置文件中定义 localhost。

  示例插件—使用 Nagios 进行注册

  1.   define command{  
  2.  
  3.   command_name check_mygetloadavg  
  4.  
  5.   command_line /path/to/check_getloadavg  
  6.  
  7.   }  
  8.  

  创建一个使用示例插件的服务

  1.   define service{  
  2.  
  3.   use service-template  
  4.  
  5.   host_name localhost  
  6.  
  7.   service_description LoadAverage  
  8.  
  9.   check_period 24x7  
  10.  
  11.   contact_groups server-admins  
  12.  
  13.   notification_options c,r  
  14.  
  15.   check_command check_mygetloadavg  
  16.  
  17.   }  
  18.  

  编写一个完整的插件

  前面的示例说明了一个采用“硬编码”方式插件的限制,它不支持运行时配置。在实际中,通常最好的方式是创建一个可配置的插件。通过这种方式,您可以创建和维护一个插件,使用 Nagios 将其注册为单个插件,并且传递参数以便为特定的情况自定义警告和危险水平。下一个示例还包括一则使用消息;经过证实,对于由几个不同的开发人员或者管理员所使用或维护的插件,这是非常有价值的。

  另一个好的实践是捕获所有的异常,并后退以报告 UNKNOWN 服务状态,以便 Nagios 能够正确地管理有关这个情况的通知。那些允许异常“失败”的插件通常会退出,并返回值 1;对于 Nagios,这表示一个 WARNING 状态。请确保您的插件能够正确地区分 WARNING 和 UNKNOWN。请注意,例如,在将其作为 UNKNOWN 结果处理可能出现错误的情况下,通常可以禁用至少某些 WARNING 通知。

  用 Python 编写一个插件

  上述的建议—运行时参数化、一则使用消息,以及经过改进的异常处理—将得到示例插件的源代码,这段代码要比前面的长几倍。但是您可以更安全地对错误进行处理,并且能够在更广泛的范围内重用该插件。

  Python 插件—获取平均负载的完整插件

  1.   #!/usr/bin/env python  
  2.  
  3.   import os  
  4.  
  5.   import sys  
  6.  
  7.   import getopt  
  8.  
  9.   def usage():  
  10.  
  11.   print """Usage: check_getloadavg [-h|--help] [-m|--mode 1|2|3] \  
  12.  
  13.   [-w|--warning level] [-c|--critical level]"  
  14.  
  15.   Mode: 1 - last minute ; 2 - last 5 minutes ; 3 - last 15 minutes"  
  16.  
  17.   Warning level defaults to 2.0  
  18.  
  19.   Critical level defaults to 5.0"""  
  20.  
  21.   sys.exit(3)  
  22.  
  23.   try:  
  24.  
  25.   options, args = getopt.getopt(sys.argv[1:],  
  26.  
  27.   "hm:w:c:",  
  28.  
  29.   "--help --mode--warning--critical=",  
  30.  
  31.   )  
  32.  
  33.   except getopt.GetoptError:  
  34.  
  35.   usage()  
  36.  
  37.   sys.exit(3)  
  38.  
  39.   argMode = "1" 
  40.  
  41.   argWarning = 2.0  
  42.  
  43.   argCritical = 5.0  
  44.  
  45.   for name, value in options:  
  46.  
  47.   if name in ("-h", "--help"):  
  48.  
  49.   usage()  
  50.  
  51.   if name in ("-m", "--mode"):  
  52.  
  53.   if value not in ("1", "2", "3"):  
  54.  
  55.   usage()  
  56.  
  57.   argMode = value 
  58.  
  59.   if name in ("-w", "--warning"):  
  60.  
  61.   try:  
  62.  
  63.   argWarning = 0.0 + value  
  64.  
  65.   except Exception:  
  66.  
  67.   print "Unable to convert to floating point value\n"  
  68.  
  69.   usage()  
  70.  
  71.   if name in ("-c", "--critical"):  
  72.  
  73.   try:  
  74.  
  75.   argCritical = 0.0 + value  
  76.  
  77.   except Exception:  
  78.  
  79.   print "Unable to convert to floating point value\n"  
  80.  
  81.   usage()  
  82.  
  83.   try:  
  84.  
  85.   (d1, d2, d3) = os.getloadavg()  
  86.  
  87.   except Exception:  
  88.  
  89.   print "GETLOADAVG UNKNOWN: Error while getting load average"  
  90.  
  91.   sys.exit(3)  
  92.  
  93.   if argMode == "1":  
  94.  
  95.   d = d1 
  96.  
  97.   elif argMode == "2":  
  98.  
  99.   d = d2 
  100.  
  101.   elif argMode == "3":  
  102.  
  103.   d = d3 
  104.  
  105.   if d >= argCritical:  
  106.  
  107.   print "GETLOADAVG CRITICAL: Load average is %.2f" % (d)  
  108.  
  109.   sys.exit(2)  
  110.  
  111.   elif d >= argWarning:  
  112.  
  113.   print "GETLOADAVG WARNING: Load average is %.2f" % (d)  
  114.  
  115.   sys.exit(1)  
  116.  
  117.   else:  
  118.  
  119.   print "GETLOADAVG OK: Load average is %.2f" % (d)  
  120.  
  121.   sys.exit(0)  
  122.  

  为了使用这个新的插件,需要使用下面的方法来注册 /etc/nagios-plugins/config/mygetloadavg2.cfg:

  Python 插件—使用 Nagios 进行注册

  1.   define command{  
  2.  
  3.   command_name check_mygetloadavg2  
  4.  
  5.   command_line /path/to/check_getloadavg2 -m $ARG1$ -w $ARG2$ -c $ARG3$  
  6.  
  7.   }  
  8.  

  另外,根据下面的示例,在 services.cfg 文件中添加或者更改服务条目。请注意,使用感叹号 ! 来分隔插件参数。与前面一样,必须在 hosts.cfg 配置文件中定义 localhost。

  创建一个使用 Python 插件的服务

  1.   define service{  
  2.  
  3.   use service-template  
  4.  
  5.   host_name localhost  
  6.  
  7.   service_description LoadAverage2  
  8.  
  9.   check_period 24x7  
  10.  
  11.   contact_groups server-admins  
  12.  
  13.   notification_options c,r  
  14.  
  15.   check_command check_mygetloadavg2!1!3.0!6.0  
  16.  
  17.   }  
  18.  

#p#

  用 Tcl 编写一个插件

  最后的示例是使用 Tcl 编写的一个插件,它使用简单对象访问协议 (SOAP) 和 Web 服务描述语言 (WSDL) 检查 xmenthods.net 的汇率。SOAP 为该插件提供了汇率的当前值,并将这些值与配置的范围进行比较。如果该值不属于警告的范围,那么它将被认为是 OK。如果该值大于或者小于警告级别,但是并没有超过危险极限,则将状态设置为 WARNING。否则将其设置为 CRITICAL,除非出现了网络错误,在这种情况下将状态设置为 UNKNOWN。

  该插件可以识别不同的可配置参数,以便能够检查不同范围的汇率。它还可以用于检查各个国家的各种汇率。

  Tcl 插件—验证当前汇率

  1.   #!/usr/bin/env tclsh  
  2.  
  3.   # parse arguments  
  4.  
  5.   package require cmdline  
  6.  
  7.   set options {  
  8.  
  9.   {country1.arg "" "Country 1"}  
  10.  
  11.   {country2.arg "" "Country 2"}  
  12.  
  13.   {lowerwarning.arg "" "Lower warning limit"}  
  14.  
  15.   {upperwarning.arg "" "Upper warning limit"}  
  16.  
  17.   {lowercritical.arg "" "Lower critical limit"}  
  18.  
  19.   {uppercritical.arg "" "Upper critical limit"}  
  20.  
  21.   }  
  22.  
  23.   array set opt [cmdline::getoptions argv $options {: [options]}]  
  24.  
  25.   # if the user did not supply all arguments, show help message  
  26.  
  27.   for each necessary [array names opt] {  
  28.  
  29.   if {$opt($necessary) == ""} {  
  30.  
  31.   set argv "-help"  
  32.  
  33.   catch {cmdline::getoptions argv $options {: [options]}} usage  
  34.  
  35.   puts stderr $usage  
  36.  
  37.   exit 3  
  38.  
  39.   }  
  40.  
  41.   }  
  42.  
  43.   # load TclWebServices package  
  44.  
  45.   package require WS::Client  
  46.  
  47.   if {[catch {  
  48.  
  49.   # download WSDL  
  50.  
  51.   WS::Client::GetAndParseWsdl \  
  52.  
  53.   http://www.xmethods.net/sd/2001/CurrencyExchangeService.wsdl \  
  54.  
  55.   {} currency  
  56.  
  57.   # create stub commands  
  58.  
  59.   WS::Client::CreateStubs currency  
  60.  
  61.   # download the actual exchange rate  
  62.  
  63.   set result [lindex \  
  64.  
  65.   [currency::getRate "England" "Japan"] 1]  
  66.  
  67.   } error]} {  
  68.  
  69.   # if downloading the rate failed for some reason, report it  
  70.  
  71.   puts "EXCHANGERATE UNKNOWN: $error"  
  72.  
  73.   exit 3  
  74.  
  75.   }  
  76.  
  77.   if {($result < $opt(lowercritical)) || ($result > $opt(uppercritical))} {  
  78.  
  79.   puts "EXCHANGERATE CRITICAL: rate is $result"  
  80.  
  81.   exit 2  
  82.  
  83.   }  
  84.  
  85.   if {($result < $opt(lowerwarning)) || ($result > $opt(upperwarning))} {  
  86.  
  87.   puts "EXCHANGERATE WARNING: rate is $result"  
  88.  
  89.   exit 1  
  90.  
  91.   }  
  92.  
  93.   puts "EXCHANGERATE OK: rate is $result"  
  94.  
  95.   exit 0  
  96.  

  现在,您需要注册这个命令,以便 Nagios 知道如何调用它。为了完成这项工作,可以使用与前面类似的配置和命令定义来创建一个名为 /etc/nagios-plugins/config/exchangerate.cfg 的文件:

  1.   command_line /path/to/check_exchangerate  
  2.  
  3.   -country1 $ARG1$ -country2 $ARG2$ -lowercritical \  
  4.  
  5.   $ARG3$ -lowerwarning $ARG4$ -upperwarning $ARG5$ -uppercritical $ARG6$  
  6.  

  在下面的示例中,假定该命令的名称为 check_exchangerate。

  接下来,创建一个使用刚刚创建的插件来监视汇率的服务。下面是服务定义,它将该服务与 localhost 服务器关联起来。尽管这个检查并不真正地关联于任何物理主机,但是需要将它绑定到一台主机。如果这个检查涉及到调用受信任的网络中的服务器的 SOAP 方法,那么您可以添加需要进行监视的实际服务器,并且在这个示例中,应该将服务绑定到该服务器。清单 12 中的代码检查 英镑对日元的汇率,并验证汇率位于 225 到 275 之间。

   添加 Tcl 插件作为一个新的服务

  1.   define service{  
  2.  
  3.   use service-template  
  4.  
  5.   host_name localhost  
  6.  
  7.   service_description EXCHANGERATE  
  8.  
  9.   check_period 24x7  
  10.  
  11.   contact_groups other-admins  
  12.  
  13.   notification_options c,r  
  14.  
  15.   check_command check_exchangerate!England!Japan!200!225!275!300  
  16.  
  17.   }  

【编辑推荐】

Nagios监控Linux和Unix服务器-安装步骤

使用Nagios监控Windows客户端

Cacti的插件安装(图)

责任编辑:zhaolei 来源: IBM
相关推荐

2011-03-28 11:20:11

Nagios 插件

2011-06-27 17:24:37

Qt 插件

2011-03-21 13:10:14

Nagios插件

2011-03-22 10:48:28

Nagios监控

2011-03-21 10:42:44

Nagios插件

2011-03-23 13:29:43

配置Nagios系统

2011-03-25 17:06:55

Nagios插件plugins

2023-12-12 08:08:17

插件PRPulsar

2014-08-01 09:57:52

Node.jsNode.js插件

2011-03-22 14:16:17

Nagios安装

2013-01-10 09:36:19

NagiosNagios插件

2011-06-27 16:59:19

Qt 动态 插件

2011-03-22 09:07:13

Nagios监控memcached

2011-06-16 13:23:35

Qt 模块化 插件式

2015-05-07 14:45:40

Cocos 插件

2011-03-23 09:05:40

Nagios监控

2011-08-22 12:25:05

nagios

2013-12-23 10:36:57

Nagios监控监测

2014-02-17 10:48:57

NagiosBGP会话

2011-09-01 14:04:45

QT Webkit插件
点赞
收藏

51CTO技术栈公众号