长期做网络工程,为客户提供技术支持已经习惯了随叫随到。春节长假归来,这段时间特别忙。很奇怪,一个不算长的假期,倒让客户的网络滋生了不少毛病!本人有做网络维护笔记的习惯,下面和大家共享两例这几天为客户排除的网络故障,颇具典型,希望能够帮助到你。
案例1:合法用户被防火墙拒之门外
故障现象
这次的客户是本市社会保险局。正月初八全局工作人员上班***天,许多Intranet内部有权用户打电话反映在查询和操作保险资料时出现无法进行数据调用和修改的故障现象,此时屏幕提示登录者为“非法用户”;系统管理员同时还发现只有从防火墙处可以访问网络并修改数据。同时,一个有趣的现象却是,Internet外部普通用户在查询各种用户资料时却没有问题,他们无论从何处都可以顺利地访问Web服务器。
网络结构
该社会保险局的网络工程是我们承建的,其网络结构比较复杂,含业务专用网、OA网、Intranet网和Internet网等。业务数据的安全设计为双Web服务器,Internet用户和Intranet用户各用一个。Intranet的Web服务器兼有备份数据的功能,两个Web服务器互联,之间的业务数据同时更新。Internet用户只能浏览、查询数据并可以进行网上申报等各种服务,不能更改数据。对Intranet内部用户实行有权访问和申报、数据修改特权限制等体制。局内的OA网用户可以象Internet用户那样随时访问和查询Internet的Web数据服务器,其中设置了部分有权用户,他们可以访问Intranet业务网的Web服务器。安装的防火墙对IP包进行过滤,只允许合法IP用户进入。
故障诊断
显然,故障现象与防火墙系统有很大关系。将网络测试仪接入服务器所在网段,启动网段搜索功能,可以发现Internet用户的Web服务器,但不能发现Intranet的Web服务器。去掉防火墙,则可以搜索到该服务器。说明确实是防火墙的问题。但昨天安装防火墙时整个系统是正常的,所以查找故障的焦点要放在安装防火墙以后有无更改过防火墙参数。此即故障排除经验中的所谓“动则有过”故障查找原则。如果能弄清网管人员都动过哪些参数和设置,查找故障的工作会便捷得多。经常让人感到遗憾且奇怪的是,多数维护管理人员都不会承认更动过网络的任何设置,这次也同以往一样。
用网络测试仪连续作ICMP类型PING测试发现,Web服务器是存在的,且反应率为***。说明Web服务器在网络上且可以正常工作。同时用网络一点通One Touch选择Web服务器的IP地址为目标地址发送流量,启动网络测试仪的协议分析功能,发现数据帧指向防火墙以后就没有任何反应了:任何回应数据帧都未出现。将网络助理One Touch的IP地址设置成任何一个已经存在的有权用户的IP地址,然后对Web服务器发送流量,这时网络测试仪可以观察到防火墙有回应数据帧出现。这说明防火墙对合法IP地址的有权用户是有反应的,但一般返回的数据帧是非法用户的提示信息。注意到前述现象中提到过只有防火墙能访问Web服务器,我们就将网络测试仪的MAC地址改为与防火墙相同的MAC地址,用网络测试仪假冒防火墙进入网络,启动网段搜索时则可以看到久别了的Web服务器。
以上现象说明,该防火墙的功能比较强,除了能过滤IP地址外,还能对各站点的MAC地址进行过滤,以防止“拥有合法IP地址的非法用户”进入系统,是一个比较好的“看门人”。但让人疑惑的是昨天安装防火墙时,网络管理人员只启动了IP包过滤功能,并未启动MAC地址鉴别功能,那么,MAC地址滤波功能是谁启动的呢?答案是:不得而知。查看防火墙帮助文件,按提示按下format下拉列表中的MAC地址过滤菜单,关闭MAC地址过滤功能,系统随即恢复正常。
故障总结
不少防火墙是靠对IP地址进行过滤和用户密码识别等方法来鉴别有权用户及其合法性等级的,一般不对网卡的MAC地址进行识别。对于具有固定用户的Intranet网络,具有MAC地址过滤功能的防火墙是非常有效的,它可以阻止对网络的各种试探性进攻。在该网络中对于Internet用户,这一功能不能启用,否则会造成正常用户的访问被屏蔽。 #p#
案例2:数据中心服务器造成的广播风暴
故障现象
这次的客户是本市某医院。医院各科室与电脑中心的联络基本中断,只偶尔有部分数据交互能达成,但速度很慢,不知何故。由于电脑中心的网管系统也陷于瘫痪状态,无法观察任何网上设备的情况。
网络结构
该医院的网络也是由我们承建的,其网络结构比较复杂。整个网络设置三台核心WS-C6509交换机,分别位于三座建筑的设备间,三台核心交换机通过千兆单模光纤互连。另外,还有一个数据中心,该中心部署了一台服务器,各科室与这台服务器进行数据的交互。
故障诊断
询问各科室网络内部工作情况,回答正常,只是与数据中心服务器的数据交互动作无法实现。可以基本断定故障就在中心的计算机系统中。中心除了配置有HP公司的网管软件OpenView外,没有再配备其它任何网络维护工具。所以一旦网管系统不能正常工作,运行维护人员也就无从下手。东城区和西城区的网络主服务器分别在两个不同的网段中,之间用交换器连接起来。全城结算主机与东城区主服务器在同一网段。用F683网络测试仪接入东城区正常工作的网段观察,发现Cisco5500交换机的Plot3Port4(第3插槽的第4端口)有异常流量,而该端口连接的正是西城区主服务器和网管系统所在的网段。为更仔细地观察此网段的工作情况,将F683网络测试仪和协议诊断器PI接入该网段,测得网络持续流量为97%,其中错误帧占98%。错误类型为短帧40%,帧常50~60字节不等,长帧58%,帧长3000~5200字节不等,并报告了出错机器的Mac地址。依此地址查找对应的机器,遗憾的是该电脑中心没有Mac地址备份表(只有IP地址和符号名对应表)。试着用ICMP的Ping查找网管机和服务器,显示Mac地址对应的是服务器的IP地址。重装服务器网卡驱动程序,无效,用F683测试服务器端口,协议显示Unknown,更换服务器网卡,重装驱动程序并设置响应参数,重启系统即恢复正常。
故障总结
服务器网卡已经损坏,发出的数据帧错误率为98%,只有不足1%的数据正常。所以网络偶尔还有数据交互可以达成。我们知道,超长帧有封闭网络的作用,主要是引起网络速度变慢或网络瘫痪,而短帧达到一定流量则会对网络设备的工作协议造成一定程度的破坏,引起设备死机(实际测试中发现工作站对此更敏感些)。
网络故障千奇百怪,已经完全超长了我们的想象。如果快速高效地排除故障呢?我的排故心得是:冷静分析、故障隔离、软硬兼施、积累经验。
【编辑推荐】