故障现象
1、内部关键业务响应很慢,信息处理不流畅;
2、服务器和交换机的CPU和内存利用率低;
3、无法定位查找到网络响应慢的原因;
网络环境
1、一台cisco3560交换机;
2、局域网内有8台服务器,其中4台是UNIX系统,另外4台是Windows 2003系统;
现场诊断
首先做Ping 测试。UNIX系统主机互ping的比较稳定,Ping值均小于1MS。而UNIX系统主机去Ping Windows系统主机的Ping值经常会出现9-15MS的延时。Windows系统主机之间互Ping值很不稳定,在1MS到15MS之间跳跃性出现。
现象分析
该网络结构简单清晰,服务器和交换机的性能良好。网络内经常出现大于1MS的延时将会影响到整个网络正常运行,对关键业务的运行造成影响,要解决该问题首先要找出延时发生的原因。
众所周知,一次网络交易处理过程:由客户端发起连接,通过网络转发到服务端,服务端处理后再返回客户端的。因此,在整个交易过程中的时延可以由三个时间来决定,客户端响应时间(t1)网络传输所用时间(t2)服务端响应时间(t3)。
现场测试发现UNIX系统主机之间ping值稳定的小于1MS,而Windows系统主机之间、或与UNIX系统主机Ping时出现较大延时。这就表明UNIX系统主机之间通信是良好的,但是与Windows系统主机通信、或Windows系统主机之间互相通讯过程中才会有延时的出现。因此,我们推断是Windows系统主机响应较慢。为了验证以上推断,我们用科来网络通讯分析系统2009进行诊断。
利用科来网络通讯分析系统进行网络诊断
(利用科来网络通讯分析系统2009进行抓包分析)
首先,打开科来网络通讯分析系统2009,配置上IP为 190.15.xxx.200,此主机做为ping发起者,向一台IP地址为190.15.xxx.218的Windows系统主机进行Ping测试。将该Windows系统主机的交换机端口做一个镜像,镜像收发的流量。然后,用190.15.xxx.200主机去Ping 190.15.xxx.218,用科来网络通讯分析系统2009进行13分钟的抓包。
抓包过程中我们发现,190.15.xxx.200主机在Ping 190.15.xxx.218主机的时候会产生9MS的延时,而且频率较频繁。而190.15.xxx.200主机Ping UNIX系统主机则都是小于1MS的延时。另外,在镜像口收到的icmp response 不很稳定,而且是1MS与9MS交替出现,表明网络是不停在抖动。
镜像的位置是Windows系统主机的SW端口,因此在echo response出现的延时可以看做是服务端响应延时,而这个响应经常会出现9MS的时延。由此验证:该网络时延由win主机的响应慢造成。
然后,登录到190.15.xxx.218主机,发现该主机运行了较多的程序,内存和CPU利用较高。我们对该主机进行减压,在关闭一款杀毒软件的进程后发现网络延时不见了,而完全卸载该杀毒软件后,网络ping值全部稳定在小于1MS下。
诊断结果
通过科来网络通讯分析系统2009的抓包诊断,困扰一个月的网络延时问题终于有了结果。原来该局域网此前一直受蠕虫病毒困扰,为了进行网络安全防御,给每个Windows系统主机装了一款杀毒软件,并且该杀毒软件默认开启了入侵检测功能。该功能会对每个到达服务器的数据包进行检测后再交给相应程序处理,而这个检查过程是很消耗时间的,所以产生了9MS的延时。
专业网络故障诊断服务简介
网络故障诊断服务是由科来软件专业网络分析技术人员提供,利用专业的网络分析仪器部署在用户指定网段,通过网络数据包级的分析,快速定位分析引起网络故障的原因,并提供相关解决问题建议,从而帮助用户快速解决问题。
网络故障诊断服务旨在为客户提供更加人性化的服务,帮助网络负责人解决切实的网络问题,优化管理网络,打造健康安全稳定的网络服务。