远程商业窃密引发丢包
中天设计院是甘肃省建设厅直属单位,网络规模不大。152台主机根据单位职能部门分为5个子网,分别由Hub连接到交换机。由于公司内部的协同办公比较频繁,除了一个在线视频系统外还部署了一台文件服务器,单独为一个子网提供数据的共享和交流。单位对外的Internet需求不是很大,通过路由器连接到Internet。
故障现象
某天,该单位的网络突然出现严重堵塞,主机间的数据频频中断导致协同办公不能正常进行,在线视频系统经常掉线。另外,无论是从文件服务器上传还是下载文件都异常缓慢,有时会因超时而中断。主机能够连接到Internet,但是网速缓慢。
初步判断
首先在一台主机上用ping命令测试到网关的连通性,输入命令“ping 192.168.2.1 -n 1000”发送1000个Ping包测试网关。测试结果是可以ping通网关,但是掉包现象很严重:1000个包有720个包丢了,丢包率为72%,持续掉包时间也很长。运行arp -a命令,发现网关IP和网关MAC地址指向正确。通过上面的测试基本排除网络设置错误以及ARP欺骗。
监控分析
于是在核心交换机上做镜像,用Sniffer对整个内网(五个子网)进行监控。首先进入“dashboard”(仪表面板),发现网络利用率达到了97%,这是很不正常的现象。笔者判断以该单位的网络规模以及日常业务量,网络利用率应该在20%~30%之间,有较大的网络冗余。这样我们可以断定,造成网络丢包的根源应该是异常流量占用大量的网络带宽所致。那这些异常流量来自何处呢?
切换到“matrix”(矩阵面板),发现MAC为00-0A- E6-98-84-B7的主机占了整个网络流量的57.87%。于是初步把目标锁定在该主机上,然后切换到“hosttable”(主机列表)继续分析。从该面板中,没有发现大量的广播包,因此完全排除了广播风暴影响。找到00-0A-E6-98-84-B7,对此主机分析,发现该主机的网络活动非常可疑,进入该主机的数据包才700多个,而出去的数据包在10多分钟内就有了几十万个包。
故障解决
为了确认上述主机在进行什么网络活动,笔者在交换机上对它单独抓包分析。对数据包解码后发现,该主机通过UDP协议项向外网的一个IP为60.164.82.185主机进行数据拷贝。这个IP怎么这么眼熟,这不是本地的一个IP吗?另外,还发现该主机与文件服务器的连接也十分频繁。笔者根据网段和MAC地址,在交换机上对该主机隔离,断开其网络连接,整个网络马上就恢复了正常,丢包故障排除。
至此,我们通过层层排错找到了造成这次网络丢包的原因——该主机被黑客植了木马,然后远程控制通过8888端口向远程拷贝文件。另外,该主机正在从文件服务器上下载大量文件,估计攻击者正在通过该主机窃取文件夹服务器上的资料。
该主机本来安装了杀毒软件,但不报毒应该是攻击者做了免杀处理。手工清除木马,将该主机连接到网络,网络丢包再也没有发生。事后机主回忆可能是中了移动硬盘中的木马,因为当天他曾经将工程规划书拷贝到客户的移动硬盘中。丢包排错中引出商业窃密这是大家都没有想到的。
循环自动扫描攻击引起丢包
笔者所在地某中学的局域网约有电脑1000台,通常情况下同时在线的有600台左右,网络一直很稳定。期末放假前网络出现异常,具体症状为:整个校园网突然出现网络通信中断,内部用户均不能正常访问互联网。在机房中进行ping包测试时发现,中心机房客户机对中心交换机管理地址的ping包响应时间较长且出现随机性丢包,主机房客户机对二级交换机的通信丢包情况更加严重。
深入分析
笔者初步判断这种现象可能是交换机ARP表更新问题、广播或路由环路故障、病毒攻击等引起的。为此,需要进一步获取ARP信息、交换机负载、网络中传输的原始数据包等信息。
配置抓包。在中心交换机上做好端口镜像配置操作,并将分析用笔记本电脑接到此端口上,启动网络分析工具捕获分析网络的数据通信,约10分钟后停止捕获并分析捕获到的数据包。
查看连接,定位攻击源。在停止捕获后,笔者在网络分析系统主界面左边的节点浏览器中发现,内部网络同时在线的IP主机达到了6515台,这表示网络存在许多伪造的IP主机,网络中可能存在伪造IP地址攻击或自动扫描攻击。选择连接视图,发现在10分钟内,网络中共发起了12108个连接,且状态大多都是客户端请求同步。据此,我们断定校园网中存在自动扫描攻击。
详细查看连接信息,发现这些连接大多都是由192.168.5.119主机发起,即连接的源地址是192.168.5.119。选中源地址是192.168.5.119的任意一个连接,单击鼠标右键,在弹出的右键菜单中选择“定位浏览器节点→ 端点1 IP”,这时节点浏览器将自动定位到192.168.5.119主机。
通过协议,确定攻击方式。选择数据包视图查看 192.168.5.119传输数据的原始解码信息,我们发现192.168.5.119这台机器正在主动对网络中主机的TCP 445端口进行扫描攻击,原因可能是192.168.5.119主机感染病毒程序,或者是人为使用扫描软件进行攻击。通过分析图表视图,进一步确定192.168.5.119主机肯定存在自动扫描攻击。
找到问题的根源后,对192.168.5.119主机进行隔离,经过一段时间的测试,网络丢包现象有所缓解,但没有从根本上解决问题。难道,还有漏网之鱼仍在兴风作浪?于是再次启动网络分析系统捕获并分析网络的数据通信,在网络中又发现了3台与192.168.5.119相似情况的主机。通过这个情况,我们可以肯定192.168.5.119和新发现的三台主机都是感染了病毒,且该病毒会主动扫描网络中其他主机是否打开TCP 445端口,如果某主机打开该端口,就攻击并感染这台主机。如此循环,即引发了上述的网络故障。
解除故障
立即对新发现感染病毒的3台主机进行隔离,网络通信立刻恢复正常。另外,在分析中笔者还发现,192.168.101.57主机占用的流量较大,其通信数据包的源端和目的端都使用UDP 6020端口,且与192.168.101.57通信的地址227.1.2.7是一个组播IP地址。鉴于此,我们推测192.168.101.57可能在使用在线视频点播之类的应用,因此耗费了网络资源。定位到该主机原来是学校机房的一台服务器被配置成了一个在线视频服务器为客户端提供视频服务,而该主机正在用P2P软件下载视频——难怪会有这么大的流量。
其实引起网络丢包的原因有很多,除了上述网络攻击和病毒感染之外,连接线路、网卡、交换机、路由器等硬件故障也会造成网络的延迟、丢包。因此,网络管理人员掌握丢包排错方法是非常重要的。
授人以鱼不如授人以渔,希望上述网络丢包排故障思路对大家有所帮助。
【编辑推荐】