有“大量工具”可以辅助管理员发现网络什么时候出故障了,同时也几种方法可以用来应对这些警报。但是哪种方法是最佳的呢?可以说,没有。没有任何一种方法适用于所有情况。本文将阐述故障修复中所使用的几种方法,以及在什么情况下它们不足以作为永久修复的手段。
基本上故障修复的方法有两种,自上而下和自下而上。现在,我们将探讨自上而下的方法,而在下一章节中,我们将探讨自下而上的方法。
在自上而下的方法中,我们从OSI协议栈的最上层开始分析。我们要先测试应用是否正常工作,然后ping服务器,等等。直到我们到达协议栈的最底层,也就是物理层。这个方法最适用于多用户进行服务台呼叫的情况。物理层问题几乎很少可能成为影响所有用户的问题,当然,除非遇到服务器连接问题时。这个方法可以用来确定应用或服务器是否DOWN了、变慢了,或者其它某些原因没有响应网络命令。为了有效地运行,它往往是在某种工具或者网络监控应用协助下工作的,这些工具和应用是可以提供某种有规律和可操作的数据。
可操作的数据可能是简单的ping,可能所有监控通过SNMP陷阱传输的位错误和其它错误的结果都是主机无法访问。然而,真正的目的是确定错误的起因。为了有效地实现,必须有一个系统故障修复计划。这当然不只包含重启服务器。如果服务器出现故障,那么它一定是由于某些原因引起的。虽然原因可能是内存泄露、处理器过度使用,或者其它问题,但是重启只能作为临时方法,而非根本的解决方案。因此,这时的可操作数据是什么呢?就是能够提供足够有用和明确的信息来确定行动计划的数据。
大多数管理软件包和监控工具允许网络管理员设置超出性能外的可接受范围的限制。想要掌握应该在哪里可以为特定问题设置限制是需要不断地探索的。设置值过低将会造成警报过密,设置过高将会导致系统死机。盲目地接受默认设置可以导致工具利用率不高。任何时候部署管理软件,我都建议花点钱接受培训。最理想的培训是请通过软件包认证的人来做实地培训——在实际环境中。这样我们就可以删除不想要或者不需要的模块,同时优化能为我们提供最好信息的模块。带宽消耗大的应用和负载高的服务器最好进行更多的调优。
管理软件的另外一个优点是它能够查询不同的设备和在报告工具中保留数据统计和变化趋势。以前,我们必须根据服务器软件和激活的电子器件来双击各种不同接口上的每台交换机来查看 ,至今很多环境仍然采用这种方法。这太繁琐了!现在,只要一个工具,就可以对趋势分析和综合流量报告进行导出、排序操作等等。这些也可以用来调整新的设备和升级(这只是一个附加功能)。趋势分析和利用模型的一个优点是它允许我们确定哪些服务器可以受益于多网卡。同时,它也允许我们将交换机进行分组,这样我们就可以平衡每台交换机的总数据包,同时就不会出现有的交换机负载过高而有些使用不足。而且它还有助于我们了解各种类型的数据包的流向,从而可以对它们进行优化。