【51CTO.com独家特稿】局域网中比较重要的网络设备是交换机,它的性能好坏直接影响着网络运行的稳定性。可是,在长时间工作之后,交换机很容易发生损坏,这么一来局域网的工作状态就会受到影响;由于交换机平时发生故障的机率比较小,一旦发生故障造成上网不正常现象时,故障排查起来就很容易多走弯路。本文下面的一则故障就是由于交换机端口短路引起的,网管由于对该细节因素没有加以重视,结果费了好大精力才将故障成功排除。
故障现象
某单位局域网规模适中,大约有100台左右的普通客户机分布在四层楼中,每个楼层中的所有客户端系统都通过超五类网络线缆,连接到H3C S3050型号的楼层交换机中,各个楼层交换机又通过1000M光纤线缆与单位局域网的核心交换机相连,整个局域网通过硬件防火墙与外网保持连接,平时所有客户端系统都能正常访问外网;为了保证局域网的运行安全性,网管特地将每一个楼层中的计算机划分到同一个虚拟工作子网中,各个虚拟工作子网相互之间是不能访问的。最近不知道什么原因,局域网中有一部分客户端系统上网突然不正常,具体现象表现为上网速度非常缓慢,并且时常会发生一会儿能上网、一会儿不能上网的奇怪故障;经过网管现场勘察,发现这些上网不正常的客户端系统几乎都位于同一个楼层,而另外楼层中的普通客户端系统却能够正常上网。
排查过程
1、查看物理连接
由于故障现象仅仅局限于同一个楼层,并且这种现象与网络接触不良十分相似,网管下意识地认为对应楼层中的交换机与局域网的核心交换机之间,可能存在物理连接不牢靠的现象。于是,网管立即将连接故障交换机与核心交换机之间的网络线缆拔下来,并使用专业的线缆测试仪测试了线缆的连通性,发现物理线缆不存在问题,之后将网络线缆两端重新插入到交换端口中,并确保水晶头与交换端口之间接触牢靠。不过,当网管在任意一台客户端系统中,尝试使用ping命令测试局域网网关地址时,发现测试效果还是不稳定,同时数据丢包也比较严重,显然物理连接并不是故障原因。
2、查看ARP病毒
考虑到客户端系统使用的IP地址与楼层交换机使用的IP地址,位于相同的工作网段中,再加上最近的ARP病毒非常流行,为此网管开始怀疑对应楼层工作子网中存在ARP病毒;由于故障计算机所在的工作子网中包含有几十台上网主机,如何快速判断ARP毒源的位置,并将带毒客户端系统从虚拟工作子网中隔离开来,保证其他客户端系统安全、稳定上网,就成为了网管的当下之急。
尽管手头没有ARP病毒监控工具,网管经过查看局域网的拓扑图资料,发现每个楼层交换机都支持网络管理,同时它们都启用了日志记忆功能,这个功能会对该交换机下面由ARP病毒引起的地址冲突现象进行跟踪记录。基于这一点,网管准备登录进入故障交换机后台系统,查看一下系统的日志记录,看看有没有相关的地址冲突信息;想到做到,网管立即通过console控制端口,登录到故障交换机后台管理系统,在该系统的全局配置模式下执行“display logbuf”命令,从弹出的结果界面中,网管并没有找到由ARP病毒引起的地址冲突记录,这说明对应虚拟工作子网中没有ARP病毒。
3、查看广播风暴
既然故障工作子网中没有ARP病毒,同时楼层交换机与核心交换机之间的物理连接也是正常的,那么局域网中可能存在广播风暴现象,该现象造成了网络传输通道发生了堵塞,这样一来故障工作子网中的客户端系统在上网访问时,就会出现上网速度缓慢或者一会儿能上网、一会儿不能上网的奇怪故障了。为了确认对应虚拟工作子网中是否存在广播风暴现象,网管进入局域网的核心交换机后台系统,使用interface命令进入故障楼层交换机与核心交换机的级联端口,执行“display interface xxx”命令,来查看指定级联端口的工作状态;结果发现该级联端口的工作状态有时为“up”状态,有时为“down”状态;更为奇怪的是,该级联端口的输入数据包与输出数据包大小明显不正常,数据流量比平时大了十多倍,为什么故障工作子网中的数据流量突然变得这么大呢?难道对应虚拟工作子网中存在恶意BT下载现象?可是,当网管反复执行“display interface xxx”命令时,发现该端口的广播数据包流量在不断地变大,显然该端口下面的虚拟工作子网中存在广播风暴现象。
4、查看端口环路
在弄清楚故障虚拟工作子网中存在广播风暴现象后,接下来的工作就是寻找造成广播风暴现象的具体“祸首”。考虑到造成广播风暴现象的因素比较多,例如网络设备损坏,网络连接形成环路、网络病毒等等,不过最常见的因素往往都是用户操作不小心,无意中在虚拟工作子网中形成了网络环路。
考虑到局域网中的交换机都启用了网络环路测试功能,为了排除网络环路因素,网管立即进入故障楼层交换机后台系统,在该系统命令行状态下执行“display logbuf”命令,查看交换机的日志记录,发现日志记录明确表明8号交换端口存在网络环路现象。赶到故障交换机现场时,网管发现8号交换端口信号灯处于闪亮状态,这说明该端口正处于工作状态;当尝试拔出连接到该交换端口上的网络线缆时,网管感到非常意外,在断开网络连接的情况下,该交换端口竟然还处于闪亮状态,这是怎么回事呢?难道是该交换端口发生了硬件损坏?
故障解决
既然该交换端口存在网络环路,网管决定先将该交换端口关闭掉,看看对应交换机所在的工作子网状态是否恢复正常。说到做到,网管立即登录进入故障交换机后台系统,执行“interface e0/8”命令,进入e0/8交换端口的视图模式状态,在该状态下继续执行字符串命令“shutdown”,将e0/8交换端口的工作状态关闭掉。
之后,网管尝试着在故障客户端系统,执行ping命令,测试对应虚拟工作子网的网关地址,结果发现ping命令测试操作正常,难道故障客户端系统现在能正常上网了?再进行上网测试时,网管看到先前发生的上网速度缓慢,一会儿能上网、一会儿不能上网的奇怪故障已经消失了,显然网络故障已经得到了成功解决。
故障反思
虽然上面的故障现象已经消失了,但是让网管感到十分纳闷的是,为什么故障交换机的e0/8交换端口,在断开网络连接的情况下,它仍然能够处于点亮状态,同时该端口还存在网络环路现象?经过仔细分析,网管认为该交换端口内部可能发生了短路现象,该现象直接造成了目标交换端口在无网络连接的情况下,也能够正常处于点亮状态;当该交换机的交换端口发生短路后,就相当于在对应虚拟工作子网中形成了网络环路,该环路引发了广播风暴现象,最终导致故障交换机工作性能下降,表现出来的故障现象就是上网速度缓慢,同时上网连接也不稳定。
当然,这类网络故障由于发生在具有环路测试功能的交换机上,网管只要从交换机后台系统日志记录中,就能快速地寻找到具体的环路位置;不过该故障要是发生在不支持环路测试功能的交换机上时,那么该故障排除起来就比较麻烦了。此时,我们可以尝试在断开交换机所有网络连接的情况下,重新启动一次交换机后台系统,并且仔细观察各个交换端口的信号灯状态,如果发现某个交换端口在没有任何连接的情况下,端口信号灯状态仍然闪烁,那么我们就能肯定该交换端口发生了短路现象。