G行监控工具之Nagios篇-nagios监控页面

引言

无论何时何地，我们都可以了解到服务器的性能，这归功于作为运维之眼的监控系统。G行监控系统使用的监控工具有多种，Nagios作为老牌监控工具，凭借其灵活的配置功能和强大的管理中心在G行发挥着重要作用。本文从功能、系统监控原理和在G行的应用等方面介绍Nagios监控工具。

一、Nagios功能

1.主机或服务状态监控

Nagios可以监控的服务器操作系统主要包含Linux、Unix和Windows等，可监控的网络设备有路由器、交换机等，支持对http、tcp、pop3、smtp等各种应用协议进行外部可用性探测。

2.监控告警通知

Nagios对发现的问题会及时产生告警信息，并通过事先定义好的方式，如：邮件、短信、微信等方式通知相关人员。同时，Nagios还支持利用客户化程序和调用API来进行告警通知，以便用户更好的发现问题，并进行自动化处理。

3.监控信息可视化

Nagios结合web服务器，可以将其监控的所有信息以web页面的形式展现出来，还可以进一步结合外部软件实现监控数据可视化分析，以图表的形式展示在web页面中，下图为Nagios web页面展示。

图1 Nagios web页面展示

4.监控数据存储

Nagios监控采集到的数据会存储下来，可以通过NDOUtis组件存储到数据库中实现历史监控信息的查询。

二、Nagios系统监控原理

Nagios是一种C/S方式的监控工具，系统中的角色可以分为:

(1)Nagios服务器：安装核心模块，负责监控的处理、任务调度、下发指令和web展示。

(2)被监控主机：安装代理模块，执行具体的监控指令、返回监控的结果。

Nagios服务器向代理模块发送请求，代理模块调用各个插件获取具体资源的状态信息，然后返回给Nagios服务器，最后对收集到的信息进行分析，并通过web应用进行展示。

Nagios系统主要包含Nagios daemon、Nagios plugin、nrpe三个组件，它还包含NSCA、NSClinet++、NDOUtils组件，组成逻辑图如下所示：

图2 Nagios逻辑结构图

Nagios daemon：Nagios系统的核心组件，它负责组织与管理各组件，将它们协调起来共同完成监控任务，并完成监控信息的组织与展示。

Nagios plugin：Nagios核心组件自带以及用户自开发的一些插件，它们是实现各项监控的具体小程序，由它们采集到相应的数据以后，回送给Nagios服务器。

NRPE：Nagios系统要想取得被监控主机的存活状态以及http、ftp、ssh等公开服务可用，可以通过程序探测得出。如果要想取得被监控主机上如磁盘容量、CPU负载等本地信息时，就需要代理程序，Linux系统是nrpe，Windows是NSClient++，通过代理程序来获取监控数据，再发送到Nagios服务器。

三、插件介绍及应用

Nagios核心模块只支持少量的监控功能，大部分监控功能都是通过各种插件来完成的。监控插件获取监控数据的方式可以分为两种：主动监控和被动监控。二者的区别在于，主动检测是由Nagios执行查询命令，而被动监控是由外部程序(代理)将检测结果推送给Nagios服务器。

主动监控：Nagios监控服务器定期主动到被监控端获取数据。主动监控又分为需要在被监控端安装agent和不需要安装agent两种。

需要安装agent：windows平台下是NSClient++，linux下是nrpe。
不需要安装agent：开启被监控端的snmp，或者通过其他网络协议进行监控。

被动监控：被监控端是将自身监控数据发往Nagios的方式，又可以分为以下两种：

被监控端通过安装nsca，定期检查本机监控项目，并将告警数据发往Nagios服务器。
被监控端配置snmp trap，将相应的trap信息发往Nagios服务器。

目前Nagios在G行主要承担外部探测功能，从Service端主动发动监控检查。

Nagios大部分的监控功能都是通过插件来实现的，以下简单介绍一些我们现在使用的Nagios插件。

(1)Nagios plugins，是个软件包，里面包含众多的插件，我们现在使用的包括：check_nt 用于监控Windows系统的负载、内存使用、磁盘使用、系统运行时间、某进程运行情况。在Nagios服务器上使用此插件，需要在被监控的Windows系统上安装agent——NSClient++ 。

监控系统负载

check_nt -H $HOSTNAME$ -p 12489-v CPULOAD –l 5,80,90

监控系统内存使用

check_nt -H $HOSTNAME$ -p 12489-v MEMUSE –w 80 –c 90

监控系统磁盘使用

check_nt -H $HOSTNAME$ -p 12489-v USEDDISKSPACE -l d -c 80

监控系统运行时间

check_nt -H $HOSTNAME$ -p 12489-v UPTIME

监控系统进程

check_nt -H $HOSTNAME$ -p 12489-v PROCSTATE -d SHOWALL -l explorer.exe

-H ：指定被监控IP -p：是NSClient++默认开启端口 -v：要监控的项目

-w: wanring阈值 -c：critical阈值 -l：附加参数

(2)check_nrpe，nrpe软件包包含了check_nrpe命令，使用这个命令来获取被监控数据，它的工作方式是：通过被监控端上的nrpe配置文件来定义监控命令(这些命令可以是Nagios plugins中的，也可以是自己开发的监控脚本)，然后从Nagios服务器上通过check_nrpe调用这些已定义的监控命令，返回监控数据。

监控系统负载

在被监控的linux端，安装nrpe和Nagios plugin，通过更改nrpe.conf文件，我们定义命令：

command[check_load]=/usr/local/Nagios/libexec/check_load-w 15,10,5 -c 30,25,20

注：check_load包含在Nagiosplugins中，只能运行在linux上。-w是warning阈值，-c是critical阈值，三个值分别对应这系统1分钟、5分钟、15分钟的负载阈值。

(3)check_ping，用于检查主机存活，可以简单的理解为ping。

监控系统网络情况

check_ping –H $HOSTNAME$ -w100.0,20% -c 500.0,60%

-w：warning阈值，100代表延迟时间，20%代表丢包率

-c：critical阈值，500代表延迟时间，60%代表丢包率。

当ping的情况无论是达到延迟时间的阈值还是丢包率的阈值，都会报警。

(4)check_tcp，检查tcp连接相应时间。

check_tcp –H $HOSTNAME$ -p 7001-w 0.05 -c 0.1

-p：指定tcp服务端口 -w：相应时间warning阈值 -c：相应时间critical阈值

(5)SNMP– Linux：通过snmp的方式监控，不需要被监控端安装agent，只需要被监控操作系统或者被监控应用系统开启并配置snmp服务即可。Nagios服务器通过snmpwalk命令连接并获取远端的系统信息。

监控linux磁盘

snmp_linux_disk_check.sh -H HOST-C community -w warning -c critical [-d disk]

-H指定被监控主机IP。-C团体字。-w磁盘使用率告警阈值-c磁盘使用率criticla告警阈值-d是可选项，指定磁盘挂载点，如省略则检测主机上所有挂载点。

监控linux CPU

snmp_linux_cpu_check.sh -H HOST-C community -w warning -c critical

-H,-C参数意义同上-w是cpu使用率告警阈值-c是cpu使用率critical告警阈值

监控linux内存

snmp_linux_mem_check_v1.sh -HHOST -C community -w warning -c critical

-H，-C意义同上-w是内存使用率告警阈值 -c是内存使用率critical告警阈值

四、在G行的应用

Nagios在G行主要承担外部探测功能，从Service端主动发动监控检查。目前监控对象包括操作系统、数据库、应用(端口、页面、日志等)、专用设备等。

Nagios监控架构如下：

图3 Nagios在G行的监控架构

五、总结与展望

Nagios是一款轻量级的开源监控软件，它可以有效的监控Linux、Windows类等的主机和网络设备，可以自定义监控脚本，同时具有部署简单、告警方式灵活、可监控多种协议等优点。目前行业中常用监控软件还有Zabbix、Prometheus等，它们分别有支持分布式监控和容器监控等优点，这两种监控工具也在G行有应用，共同支撑着G行的监控系统，并在监控自服务和监控标准等方面继续优化。