【51CTO.com独家特稿】随着单位信息化程度的不断提高,对信号处理能力和网络传输速度的要求也在不断提高,对交换机的质量和性能要求自然也就水涨船高了。可是,随着时间的推移,质量和性能再好的交换机,也难以满足单位日益增加的数据交换要求,而且交换机工作时间一长之后,还会出现软件、硬件方面的问题,这些问题会直接导致网络发生各式各样的奇怪故障。本文下面介绍的一则频繁掉线网络故障,竟然是由于交换机后台版本系统较低,造成交换端口莫名其妙地发生中断现象引起的,现在笔者就将该故障的解决过程还原出来,与各位朋友共享交流!
大楼网络状况
某单位大楼网络有一个中心机房,中心机房中的核心路由交换机下挂了多模光纤,直通各个楼层弱电间中的三层交换机上,各个楼层中的所有计算机都通过100M普通双绞线连接到弱电间中的三层交换机上。其中一、二、三层网络组网时间比较早,对应楼层网络使用的交换机持续工作的时间也比较长了,而该大楼的四楼、五楼以前是活动中心和会议室,现在由于工作需要,单位已经将这两个楼层也改造成普通的办公房间,这些房间的计算机也是通过100M普通双绞线连接到弱电间中的三层交换机上的,只是这两个楼层中的三层交换机都是最新才买的,对应后台管理系统的版本自然也是最新的。
某楼层突然掉线
平时,各个楼层用户都能正常上网,并且上网速度也是非常顺畅。可是,最近一段时间,网络管理员发现三楼的用户接二连三地报修网络故障,说他们的计算机不能正常访问外网;刚开始的时候,网络管理员只是简单地认为该故障肯定是上网用户自身原因引起的,于是建议这些不能上网的用户认真检查一下自己的计算机是否有病毒,网络连接是否牢靠,实在不行的话可以重新更换一下新的IP地址,原以为这些建议能够帮助上网用户解决故障,可是三楼用户的故障报修电话还是源源不断地进来,而且同时不能上网的用户数量更多,这下网络管理员才感觉到问题的严重性。
由于现在三楼有很多用户不能同时上网,网络管理员认为可能是三楼子网络中存在ARP病毒,因为现在ARP病毒非常流行,而且局域网中一旦感染了这种类型的网络病毒,那么就可能有多台计算机不能同时上网;本着试试看的心态,网络管理员打算先进入大楼网络的核心交换机中,使用其自带的管理命令查看一下交换机的后台日志记录,看看其中是否存在由ARP病毒引起的地址冲突现象,一旦看到有地址冲突记录的话,那么就说明大楼网络中真的存在ARP病毒,可是经过仔细查看,网络管理员并没有找到相应的记录内容,这说明大楼网络中不存在ARP病毒,造成三楼用户不能正常上网的可能另有“祸首”。
在排除了网络病毒因素后,网络管理员开始担心位于三楼弱电间的三层交换机可能工作状态不正常,想到这一点,网络管理员打算先将三楼的目标交换机后台系统重新启动一下,看看能不能解决用户无法上网的故障;于是,网络管理员立即登录进入大楼网络的核心交换机后台系统,之后使用interface命令进入目标三层交换机的下行端口,在该端口模式状态下执行“reboot”命令,远程重启了一下目标三层交换机后台系统,结果发现原先不能上网的计算机,现在都能正常上网了,看来目标三层交换机自身的状态问题,造成了三楼用户突然掉线不能上网的。
掉网现象频繁发生
本以为上网的故障现象已经被顺利解决了,可是谁曾想到,没有多长时间,相同的故障现象再次出现了,而且每次出现的时候,网络管理员要么赶到故障交换机现场,要么通过远程方式,重新启动一下目标交换机后台管理系统,那么掉线故障就能暂时得到解决了,看来问题并不是简单重新启动一下交换机系统就行的了。
难道是三楼工作子网中数据流量较大,每过一段时间,对应楼层的三层交换机被这些大容量的数据信息顶死了?为了监控三楼工作子网中是否存在大流量的数据信息,网络管理员特意使用专业工具对该子网的流量进行即时监控,经过一段时间的观察,他发现对应网络的工作流量并不是很大;而且更让人感到不可思议的是,即使在下班时间,网络掉线现象也会频繁出现,这说明位于三楼的三层交换机并不是由大流量的数据包给顶死的,如此说来,难道是有人在蓄意攻击交换机,或者是交换机自身的性能不稳定?
怀疑系统版本较低
考虑到位于三楼的三层交换机是通过宽带光纤线路连接到单位大楼的核心交换机上的,那会不会是宽带光纤的问题呢?为了稳妥起见,网络管理员请本地运营商前来测试一下三楼的交换机与大楼核心交换机之间的宽带线路,经过反复测试,发现这段宽带线缆的连通性能很稳定,这就意味着三楼的交换机工作状态与宽带光纤的连通性没有任何关系。
由于三楼工作子网的流量不大,而重新启动交换机后台系统又能临时解决故障现象,为此网络管理员认为问题还是出在目标交换机自身的稳定性上,那么究竟哪些因素会影响交换机的工作稳定性呢?在苦苦思索之时,网络管理员偶然想到以前三楼交换机也曾出现一次故障,那就是交换机由于系统BUG的问题,引起用户好长一段时间不能上网,当时该交换机设备还处于保修期间,网络管理员亲眼看到系统集成工作人员耗费了很长时间,才找到故障的原因所在,后来打好该交换系统的补丁后,才解决了三楼用户不能正常上网的故障现象。而这次发生的网络故障与以前有几分相似,那么引起该故障的原因是否也相同呢?联想到三楼的目标交换机已经连续工作了很长时间,其后台管理系统运行到现在,说不定又有不少BUG被发现了,是不是将这些BUG解决掉,就能解决上述网络故障呢?
为了判断自己的猜测是否正确,网络管理员立即到故障交换机现场,通过超级终端方式直接进入该交换机后台系统,并在该系统的全局配置状态下,执行“dis ver”命令,查看到了故障交换机的后台系统版本号;将该版本号记下后,网络管理员又上网查询了对应型号交换机的后台系统版本,发现故障交换机使用的后台系统已经了升级了几个版本,难道上述故障真的是由交换机后台系统的版本太低引起的?
升级交换系统版本
虽然网络管理员不能确认上述故障就是由交换机后台系统的版本太低引起的,但是他相信最新版本的后台系统存在的BUG会更少,它们运行起来自然也就更稳定,于是他打定注意,先将故障交换机的低版本后台系统升级到最新版本。想到做到,网络管理员先是从交换机的官方网站中下载得到最新版本的升级文件,然后将本地计算机设置成FTP服务器,再通过超级终端方式登录进入故障交换机,并通过其自带的ftp命令将升级文件传输保存到交换机的flash内存中;为了保证升级操作的安全,网络管理员又将故障交换机以前的配置文件进行了备份,以避免升级操作失败无法恢复交换机的工作状态,最后使用boot命令开始正式对故障交换机的后台管理系统进行升级。
升级操作完成之后,网络管理员又执行了“dis ver”命令,发现故障交换机的后台系统的确已经升级到最新版本了;下面,网络管理员根据以前的记录,对升级后的故障交换机进行了重新配置,配置完毕后,再次进行了重新启动,等到故障交换机启动稳定后,网络管理员尝试着从三楼工作子网中进行上网测试,测试发现原先不能上网的计算机已经可以正常上网了;后来,网络管理员又连续进行了跟踪测试,结果发现升级后的交换机工作状态一直很稳定,三楼的用户上网也一直很正常,这说明本文上面提到的网络故障的确是由于交换机后台系统版本较低引起的。