ping不通、网速慢、时断时续……类似这样的局域网故障网管人员应该屡见不鲜了。那么,大家是如何来解决这些故障的呢?如何做到快速、准确呢?最近,笔者就经历一起这样的网络故障。下面,笔者把相关的过程写下来,希望对大家有所帮助。
一、网络故障描述
笔者本地某中学的局域网出现了异常,具体症状为:网络严重阻塞,客户机之间相互ping时严重丢包,校园网用户访问互联网的速度非常慢,甚至不能访问。整个校园网突然出现网络通讯中断,内部用户均不能正常访问互联网,在机房中进行ping包测试时发现,中心机房客户机对中心交换机管理地址的ping包响应时间较长且出现随机性丢包,主机房客户机对二级交换机通讯的通讯丢包情况更加严重。
二、故障初步分析
笔者初步判断可能是,交换机ARP表更新问题,广播或路由环路故障,病毒攻击等引起的。为此,需要进一步获取ARP信息、交换机负载、网络中传输的原始数据包等信息。
首先,笔者在该校的主机房的客户机和其下的客户机上分别使用“arp –a”命令查看ARP缓存信息,结果正常。然后,登录中心交换机查看各端口的流量,由于交换机反应速度较慢,操作超时,无法获得负载的实际流量。
三、层层深入 排除故障
初步分析受阻,于是笔者决定应用“科来网络分析分析”工具捕获并分析网络中传输的数据包,进行网络故障的排查。下面笔者详述具体的排查过程:
1.配置抓包
在中心交换机上做好端口镜像配置操作,并将分析用笔记本接到此端口上,启动科来网络分析系统5.0捕获分析网络的数据通讯,约2.5分钟后停止捕获并分析捕获到的数据包。
2.查看连接 定位攻击源
该中学校园网的主机约为1000台,一般情况下,同时在线的有600台左右。在停止捕获后,笔者在科来网络分析系统主界面左边的节点浏览器中发现,内部网络(Private-Use Networks)同时在线的IP主机达到了6515台,如图1,这表示网络存在许多伪造的IP主机,网络中可能存在伪造IP地址攻击或自动扫描攻击。选择连接视图,发现在约2.5分钟的时间内网络中共发起了3027个连接,且状态大多都是客户端请求同步,即三次握手的第一步,由TCP工作原理可知,TCP工作时首先通过三次握手发起连接,如果请求端向不存在的目的端发起了同步请求,由于不会收到目的端主机的确认回复,其状态将会一直处于请求同步直到超时断开,据此,我们现在更加断定校园网中存在自动扫描攻击。(如图1所示)
图1 在线主机结果显示
详细查看图1的连接信息,发现这些连接大多都是由192.168.5.119主机发起,即连接的源地址是192.168.5.119。选中源地址是192.168.5.119的任意一个连接,单击鼠标右键,在弹出的右键菜单中选择“定位浏览器节点→端点1 IP”,这时节点浏览器将自动定位到192.168.5.119主机。
选择图表视图,并选中TCP连接子视图项,查看192.168.5.119主机的TCP连接情况,如图2所示。查看图2可知,192.168.5.119这台主机在约2.5分钟的时间内发起了2800个连接,且其中有2793个连接都是初始化连接,即同步连接,这表示192.168.5.119主机肯定存在自动扫描攻击。(如图2所示)
图2 短时间内网络内的同步连接数#p#
3.通过协议 确定攻击方式
选择数据包视图查看192.168.5.119传输数据的原始解码信息,如图3。从图3可知,这些数据包的大小都是66字节,协议都是CIFS,源地址都是192.168.5.119,而目标地址则随机产生,目标端口都是445,且数据包的TCP标记位都将同步位置1,这说明192.168.5.119这台机器正在主动对网络中主机的TCP 445端口进行扫描攻击,原因可能是192.168.5.119主机感染病毒程序,或者是人为使用扫描软件进行攻击。(如图3所示)
图3 协议和数据包显示
找到问题的根源后,正准备对192.168.5.119主机进行隔离,这时因其它事情中断分析工作约10分钟左右。继续工作,隔离192.168.5.119主机的同时再次将启动科来网络分析系统5.0捕获分析网络的数据通讯,约2.5分钟后停止捕获并分析捕获到的数据包。
分析捕获到的数据包,网络中又出现了3台与192.168.5.119相似情况的主机,且这些主机发起的同步连接数都大大超过192.168.5.119,图4所示的即是其中一台主机在约2.5分钟内的发起的连接数,其中同步连接达到了6431个。
通过这个情况,我们可以肯定192.168.5.119和新发现的三台主机都是感染了病毒,且该病毒会主动扫描网络中其它主机是否打开TCP 445端口,如果某主机打开该端口,就攻击并感染这台主机。如此循环,即引发了上述的网络故障。(如图4所示)
图4 找到可疑主机
4.隔离杀毒 解除故障
网管人员立即对新发现感染病毒的3台主机进行隔离,ping测试响应时间立刻变为1ms,网络通讯立刻恢复正常。
在分析中,笔者还发现,192.168.101.57主机占用的流量较大,其通讯数据包的源端和目的端都使用UDP 6020端口,且与192.168.101.57通信的地址227.1.2.7是一个组播IP地址,签于此,我们推测192.168.101.57可能在使用在线视频点播之类的应用,并因此对网络资源造成了一定程度的耗费,其通讯数据包如图5所示。对于这种情况,网管人员也应对其进行检查,确定其合法性,以避免网络带宽被一些非关键业务所耗费。(如图5所示)
图5 查到可疑的在线应用
5.补充说明
需要说明的是,笔者在解决该网络故障的过程中进行了两次抓包,这两次抓包相隔仅10分钟的时间,通过对数据包的分析发现网络中就被新感染主机三台。
由此我们可以想象,如果不使用网络检测分析软件捕获分析网络中传输的数据包,仅通过查看交换机的端口流量,或者使用单纯的流量软件,将很难找到问题的根源,这样网络中感染的主机会越来越多,最终将导致整个网络的全部瘫痪。
四、总结
以上便是笔者诊断并排除该校园网故障的全过程,类似这种在网络出现速度慢、时断时续、不能访问的网络故障应该是管理员们经常遇到的,希望笔者的这个故障排除案例对于大家解决类似的网站故障有所帮助。另外,笔者认为掌握并利用网络分析软件(类似的软件很多)往往能够化难为易,帮助管理预案快速准确定位故障,从而尽快解决故障。
【编辑推荐】