在网络管理中,网络优化与网络路障排除是最有挑战性的两项工作。笔者从事网络管理这块工作已经有近十个年头了,积累了不少网络故障的典型案例。笔者就借助这个平台共享出来供大家参考。今天先谈谈交换机连接过程中的常见故障。
故障一:交换机级联故障
故障情形:有一家客户,其通过交换机连接交换机的级联方式来增加可用的以太网接口。一次增加了一台新的交换及之后,发现新增加的交换机端口无法连接到企业的网络中。他们采用的是交换机的Uplink端口进行连接。即两台交换机之间直接通过Uplink端口利用直通线进行互联,从而发生连接故障。当前这根网线是没有问题的,交换机的端口也没有问题。但是连接在这些端口上的主机就是无法连接企业的网络。
原因分析:一般交换机上的端口主要有一个Uplink端口和其他普通端口组成。通常情况下,交换机之间的连接可以通过Uplink端口来进行连接,也可以采用普通端口进行连接。而采用Uplink来进行连接,又包括两种情况。一种情况是Uplink端口连接另外一个交换机的Uplink端口;另外一种情况是Uplink端口与另外一台交换机的普通端口进行连接。不过不同的连接方式,对于网线的要求是不同的。通常情况下,建议交换机与交换机之间使用Uplink端口进行连接(一端使用Uplink接口、另一端使用普通端口)。因为在这种情况下,可以使用直通线来进行连接。而如果两台交换机使用的都是Uplink端口的话,则必须使用交叉线进行连接。而这家客户现在采用的连接方式就是将两台交换机的Uplink接口进行直接相连,而采用的确是直通线。这就导致了两台交换机之间根本无法进行通信。
故障解除:原因找到了,那么问题解决起来就比较方便了。只要将这跟网线换一下,换成交叉线即可。如果不想换网线的话,那么更换交换机的连接端口也可以。将其中一台交换机的Uplink端口采用普通端口就可以了。
故障总结:在交换机互联环境中,一般建议的连接方式是一端使用Uplink端口,而另外一边使用普通端口。在这种情况下可以采用直通线进行连接。一般情况下都不建议两边都采用相同的端口。因为此时必须通过交叉线才能够完成连接。在交换机级联中,这是一个比较基本的规则。级联就是指使用交换机普通的或者特殊的端口,以网线将两个或者两个以上的设备连接起来的方式。一般来说交换机与路由器等设备都可以进行级联,但是级联的方式会因为所采取的端口不同而不同。有些厂商为了满足级联的需要,还会专门在自己的设备上提供Uplink等类似的行连接端口。在实际工作中,当交换机等设备上有专门提供的用于上行连接的Uplink端口时,可以使用直通跳线将这个端口连接到其他设备的普通端口上(即Uplink端口以外的任何端口)。
在谈到交换机级联时,笔者最后还要强调一点内容。即交换机级联虽然是可行的,但是一般建议级联的层次不要太多。如最好不要超过五层。否则的话,由于交换机的局限性(如无法隔离广播域),会降低企业网络的性能。 #p#
故障二:Vlan端口故障的排除过程
故障情形:有一家客户由于研发部门涉及到比较多的机密数据,为此IT负责人决定将企业的网络划分为多个Vlan网络。并根据企业的安全策略,设置了相应的访问策略。如其他部门的用户不能够访问研发部门所在的虚拟局域网、并且研发部门的用户也无法访问互联网,以防止他们向外发送机密信息。企业在Vlan设计时,规定不同的Vlan网络的计算机采用不同的IP地址段、子网掩码和默认网关。现在这家企业采购部门来了几个新的员工。将他们的电脑连接到网络中之后,发现有一台电脑无法连接到网络。不知道哪里出了问题?
故障排除过程:Vlan通信的故障排除相对来说要复杂一些,因为其涉及到的内容比较多。笔者就以这个案例为例,谈谈Vlan连接故障的核心排错过程。一般情况下,只要根据这个过程来操作,就可以发现其故障点。
第一步是判断本地网络的配置情况。如需要查看一下这台故障计算机的网卡驱动安装情况(如有没有感叹号等警告标志)。如需要查看一下本地的IP地址、子网掩码和默认网关是否正确(无论是手工配置还是DHCP自动分配,都需要确认一下这个配置信息)。通常情况下,我们可以使用Ping命令,来Ping一下这台主机的IP地址。如果可以Ping通的话,则说明网卡可以正常工作。
第二步是判断与其它主机的通信状况,特别是判断一下与其它也有类似情况的主机之间的连接。如我们可以使用Ping命令来Ping一下另外一台也连不上网络的计算机的IP地址。如果能够连接到另外一台电脑,则说明其物理链路没有问题、交换机工作也是正常的。如果不能够连通的话,则可能说明主机与交换机之间的链路可能有问题。有可能是他们之间的连接线有故障,也有可能是交换机的接口没有正常工作。然后再Ping一下其它联网正常的主机,如果无法Ping通的话,在基本上可以确定是在虚拟局域网配置上出现了问题。由于虚拟局域网的安全策略,阻止了这几台计算机连入到企业的网络。
第三步:判断与默认网关之间的通信。最后,我们需要再次判断故障主机与Vlan的默认网关、网络内的服务器和路由器的默认网关之间的连通性,来确认我们刚才的判断是否准确。如果发现无法Ping默认网关的话,则可以百分之百的确定是Vlan惹的祸。如此的话,我们找到问题的原因,那么后续解决故障时就有了方向。
通过这几个步骤,就可以确定主要是因为新增加的主机,被分配到了错误的虚拟局域网内才造成了通信的故障。纵观这几个过程,我们发现其基本上可以分为两个阶段。第一个阶段是分析本地配置与物理链路是否有问题。第二个阶段就是分析Vlan配置的有效性,包括主机是否接错了端口等信息。
故障总结:Vlan的主要特性在于提高网络性能(可以隔离不必要的广播风暴)、增加网络的安全性(控制不同局域网之间用户的连接)。但是这些特性是以增加网络的复杂度为代价的。为此在Vlan环境中,网络出现故障的几率也会大许多。而大部分故障都是因为配置所导致的,如接错了端口或者说配置了错误的网关所造成的。为此笔者建议,在有Vlan应用的情况下,需要将Vlan中的IP地址、子网掩码、默认网关、交换机对应端口等信息都一一记录在案。我们可以在Vlan交换机的旁边放上这个文档(并及时的更新),以方便我们在后续维护中及时查询。而Vlan又有不同的实现方式。在后续维护时,还需要考虑不同实现方式对实际工作的影响。如以端口来实现的Vlan网络,则不同的交换及接口对应着不同的Vlan。如果端口接错的话,就可能会导致网络故障。而以IP地址为主的Vlan,则IP地址不同就有可能连接到错误的Vlan中。为了减少后续维护的复杂程度,一家企业最好采用一种Vlan方案,而不要采用多种。不然的话,容易混淆。