好啦!开始讲述第二部分:使用Nagios实现网络监控
欢迎来到Nagios的世界,这是一个开放源码的网络监控工具。除了免费之外,Nagios还拥有强大的功能和可伸缩性,它能够使用自动化的网络监控为IT管理节省大量的时间。
在这一部分,我将向你展示一个Nagios配置的例子。而在此篇文章的第一部分,我们已经讨论过Nagios的有效性和它的体系结构。查看第一部分
Nagios配置
就像我们在第一部分讨论的一样,配置在成功部署Nagios中扮演着重要的角色。Nagios的配置结构在概念上相当直截了当,但需要特别注意一些细节。本质上,需要分层定义主机和服务,还要定义需运行何种检查和在检查失败后要进行的操作。
这里是一个主机配置文件记录的例子:
- define host{
- host_name linux-server
- alias linux-server
- address 192.168.1.254
- check_command check-host-alive
- max_check_attempts 5
- contact_groups linux-admins
- notification_interval 30
- notification_period 24x7
- notification_options d,u,r
- }
多数记录都是不解自明的。机器有名字(name),地址(address),需要运行的检查(check_command check-host-alive),以及在确定存在问题前,所要运行的最大检查次数。如果存在问题,根据上面的配置,linux-admins组将不分白天与黑客(24x7),在每个小时的第30分,会收到警告信息。因此为了这种方法,机器必须进行自身检查,以取包自己持续运行。
这里还有一个服务器配置文件记录的例子:
- define service{
- host_name linux-server
- service_description check-disk-sda1
- check_command check-disk!/dev/sda1
- max_check_attempts 5
- normal_check_interval 5
- retry_check_interval 3
- check_period 24x7
- notification_interval 30
- notification_period 24x7
- notification_options w,c,r
- contact_groups linux-admins
- }
同样,多数的记录条目都很容易就能够被理解。此服务器运行于在迁移个例子中定义的主机之上(服务必须有一个条目,指明他们所属于的服务器)。然后是服务的描述以及检查它是否持续正常运行的命令,还有需要运行的最大检查次数等等。
一个明显的问题是,“现在我已经正在监控我的所有将建和软件,但我怎样才能够发现或找出发生了什么?”除了在每个配置记录(notification_options条目)中定义的问题警告提醒机制之外,Nagios还提供了大量可重写的CGI脚本来提供监视信息;本质上,可以提供一个系统信息的仪表板(dashboard)。这些脚本提供的有整个系统的状态、网络问题、趋势等等。在仪表板信息和警告提醒之间,Nagios允许你采取更加超前的方法来管理你的IT基础设施。回到第一部分
【编辑推荐】