当我们组建好一个小型网后,为了使网络运转正常,维护好网络就显得很重要,如何在遇到故障后,排除故障。怎样排除呢?
由于网络协议和网络设备的复杂性,许多故障解决起来绝非像解决计算机故障那么简单,只需要简单的拔插和板卡置换就能搞定。网络故障的定位和排除,既需要长期的知识和经验积累,对网络协议的理解,也需要一系列的软件和硬件工具,更需要你的智慧。
比如某单位单位局域网使用的是千兆以太网技术,网络主干采用 1000Mbps 速率进行传输,同时提供 10/100Mbps 带宽到桌面,局域网采用的是数据流向层次性好和易于网络管理的星型拓朴结构。网络管理中心放置一台某型号带路由主交换机,各楼层使用100M交换机。楼层间的450T交换机采用背板堆叠形成一体,由 该交换机统一管理,使用 UTP-5 双绞线综合布线到各房间。
为了防止广播风暴和便于管理,局域网中又按各业务部门划分成了若干个 VLAN (虚拟子网),自己有独立的网段。那么为大家整理一下排查思路:
一、 局域网故障的排查思路
1、对于某一台联网的计算机上不了网,首先要分别确定此计算机的网卡安装正确否,是否存在硬件故障,网络配置是否正确。
我们一般采用 Ping 本机的回送地址(127.0.0.1)来判断网卡硬件安装和TCP/IP 协议的正确性。如果能Ping通,即说明这部分没有问题。如果出现超时的情况,则要检查计算机的网卡是否与机器上的其它设备存在中断冲突的问题。 通过查看系统属性中的设备管理器,是不是在网络适配器的设备前面有黄色惊叹号或者红色叉号,如有即说明硬件的驱动程序没有安装成功,可删除后重新安装。另外要确保TCP/IP协议安装的正确性,并且要绑定在你所安装的网卡上。如果重新安装后还是 Ping 不通回送地址,就最好换上一块正常的网卡试一试。
由于在局域网中划分了 VLAN,所以连在不同VLAN 中的计算机都有各自不同的 IP 地址、子网掩码和网关。要在机器的网络属性中设定的IP 地址等数据与连接的 VLAN 相匹配,否则将出现网络不通的情况。另外局域网中还提供了 Web 服务,并使用了域名服务系统,这样就要确定计算机 DNS 配置的正确性。曾经出现过能 Ping 通 Web 服务器的 IP 地址,但不能浏览网页的问题,就是 DNS 设置错误造成的,其实 Ping 一下域名就可知道是否存在错误了。
2、当确保了计算机的硬件设备和网络配置正确后, 接着就要查看计算机与交换机之间的双绞线, 交换机的 RJ-45 端口或交换机的配置是否有问题。
此时我们要 Ping上网计算机所在VLAN 的网关,不通的话就要分段检查上面所说的各项。最简单的是检查双绞线,用线缆测试仪看是不是双绞线断开了。在实际检测中,笔者还发现过这样的问题,由于每个房间布了两根线,但只使用了一个端口,当用户上不了网时,就自己把跳线插到另一个面板端口上去试,也没有换回来。最后查了半天是跳线没有插对端口,所以对于用户较多的局域网,布线图和用户上网端口的对照表是必不可少的。
双绞线没有问题了,就要看交换机的端口是不是坏了。交换机每一个端口都有状态指示灯,不同交换机的端口指示也不同,以450T来说,绿色为100M 连接,桔黄色为10M连接,闪烁为管理员使用软件禁用了此端口,不亮为没有连接(包括了此端口没有使用,连接的双绞线断开,连接的计算机未开机,连接的网卡损坏或端口损坏) 。
检测到此,如果端口指示灯不亮,就只能是端口损坏了。可以把跳线接到正常使用的端口上排除其它原因,确定是端口的问题。另外还有交换机的配置问题,只有极少的几个人对交换机的配置有修改的权限,所以询问一下其它网管人员就可以排除了, 如果不放心可以对照查看, 当然交换机的参数配置表也是网络管理员必备的资料之一,并且随着网络用户的变化要不断的修改。
二、网络维护中应重点注意的问题
1、双绞线的制作: 千兆以太网使用的主要连接线缆是双绞线, 在网络中一半以上的故障是由双绞线接触不良, 断开或线序不符合标准引起的。双绞线采用的标准分为 EIA/TIA-568B (线序为:桔白,桔,绿白,蓝,蓝白,绿,棕白,棕)和 EIA/TIA-568A (线序为:绿白,绿,桔白,蓝,蓝白,桔,棕白,棕) ,从线序上我们能看到,保证了 1,2 和 3,6 两对是同一组线,并且双绞,这样可以防止串扰,尤其在100M 速率传输和距离接近 100 米时,可以减少数据信号的衰减和防止丢包。俗话说“工欲善其事,必先利其器” ,好的工具也能起到事半功倍的效果,线缆测试仪和 AMP 压线钳是最基本的做线工具。
2、计算机的网络属性配置: TCP/IP 协议的配置错误,也会造成网络无法连通。主要检查的是计算机的 IP 地址、子网掩码、网关和DNS 服务器的设置要正确,而且要匹配。不能出现使用这个网段的IP地址,而网关却是另一个虚网的这种情况,尤其在划分了 VLAN的局域网中更是要注意这点。另外有时用户会叫唤: “为什么我的计算机找不到共享的功能” ,其实这是他的计算机在网络的文件及打印共享中没有选中“允许其他用户访问我的文件”选项。
3、网络文档资料:网络文档资料包括网络的设计方案,网络布线图,配线架对照表,用户上网端口表,交换机端口配置表等。它们
可以减少不必要的麻烦和混乱,其他人也可在参考这些资料的情况下,排除一些故障和增加上网用户,而没有必要把你从休假地给拽回来。
“好记性不如烂笔头” ,当你面对机柜中上百根跳线而理不清头绪的时候,就会意识到资料的重要性了。当然,网络用户变化,交换机的配置改变后,也要及时的修改和更新这些资料,不然就成了一堆摆设。
4、机房的电气环境:以往机房地线是统一接到楼房地线上的,其实这种接法也有局限性,在机器与机器之间存在电压差,这会被雷击损坏设备或造成广域网和用同轴电缆连接的机器之间传输数据的丢失,通讯时好时坏。目前对机房地线的连接主要采用环形法,把机房中所有设备的地线连接成一个闭合环,再连到楼房的地线上,这样机器就处于一个等电势的平面中。网络发生故障时,网管最容易忽略的就是电源故障,大家往往以为只要没掉电,电源就没问题,其实这种想法是不对的。如果遇到莫名其妙的故障时,最好先检查一下电源。
三、 局域网故障的排查过程
在开始动手排除故障之前,最好先准备一支笔和一个记事本,然后,将故障现象认真仔细记录下来。在观察和记录时一定注意细节,排除大型网络故障如此,一般十几台计算机的小型故障也如此,因为有时正是一些最小的细节使整个问题变得明朗化。
1、识别故障现象
作为管理员,在你排故障之前,也必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是找不到另一个计算机,如此等等。
知道出了什么问题并能够及时识别,是成功排除故障最重要的步骤。
识别故障现象时,应该向操作者询问以下几个问题:
(1)当被记录的故障现象发生时,正在运行什么进程(即操作者正在对计算机进行什么操作)。
(2)这个进程以前运行过吗?
(3)以前这个进程的运行是否成功?
(4)这个进程最后一次成功运行是什么时候?
(5)从那时起哪些发生了改变?
带着这些疑问来了解问题,才能对症下药来排除故障。
2、对故障现象详细描述
当处理由操作员报告的问题时,对故障现象的详细描述显得尤为重要。如果仅凭他们的一面之词,有时还很难下结论,这时就需要网管对计算机进行亲自操作一下刚才出错的程序,并注意出错信息。例如,在使用 Web浏览时,无论键入哪个网站都返回“该页无法显示”之类的信息。使用 ping 命令时,无论 Ping 哪个 IP 地址都显示超时连接信息等。诸如此类的出错消息会为缩小问题范围提供许多有价值的信息。对此在排除故障前,可以按以下步骤执行:
(1)收集有关故障现象的信息;
(2)对问题和故障现象进行详细的描述;
(3)注意细节;
(4)把所有的问题都记下来;
(5)不要匆忙下结论。
3、列举可能导致错误的原因
作为网络管理员,则应当考虑,导致无法查看信息的原因可能有哪些,如网卡硬件故障、网络连接故障、网络设备( HUB)故障、 TCP/IP 协议设置不当,等等。这里需要注意的是:你不要着急下结论,可以根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。
4、缩小搜索范围
对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试,就断定某一区域的网络是运行正常或是不正常。另外,也不要在自己认为已经确定了的第一个错误上停下来,应直到测试完为止。
除了测试之外,网络管理员还要注意:千万不要忘记去看一看网卡、 HUB、Modem、路由器面板上的 LED指示灯。通常情况下,绿灯表示连接正常( Modem需要几个绿灯和红灯都要亮),红灯表示连接故障,不亮表示无连接或线路不通,长亮表示广播风暴,指示灯有规律地闪烁才是网络正常运行的标志。同时不要忘记的还是要记录所有观察及测试的手段和结果。
5、隔离错误
经过你的一翻折腾后,这时你基本上知道了故障的部位,对于计算机的错误,你可以开始检查该计算机网卡是否安装好、 TCP/IP 协议是否安装并设置正确、 Web浏览器的连接设置是否得当等一切与已知故障现象有关的内容。注意的是。在开机箱时,不要忘记静电对计算机芯片的危害,以及正确拆卸计算机部件。
6、故障分析
处理完问题后,作为网络管理员,还必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。
四、故障原因
虽然故障原因多种多样,但总的来讲不外乎就是硬件问题和软件问题,说得再确切一些,这些问题就是网络连接性问题、配置文件选项问题及网络协议问题。
1、网络连接性
网络连接性是故障发生后首先应当考虑的原因。 连通性的问题通常涉及到网卡、 跳线、 信息插座、 网线、HUB、Modem等设备和通信介质。
其中,任何一个设备的损坏,都会导致网络连接的中断。连通性通常可以采用软件和硬件工具进行测试验证。例如,当某一台计算机不能浏览 Web时,在网络管理员的脑子里产生的第一个想法就是网络连通性的问题。到底是不是呢?可以通过测试进行验证。看得到网上邻居吗?可以收发电子邮件吗? ping 得到网络内的其他计算机吗?只要其中一项回答为“ yes”,那就可以断定本机到 HUB的连通性没有问题。再在提供“传真图”上的那台计算机上重复上述操作,只要有一项回答“ yes”,则肯定本机到“数据源”的连通性没有问题。
当然,即使都回答“ No”,也不就表明连通性肯定有问题,而是可能会有问题,因为如果计算机的网络协议的配置出现了问题也会导致上述现象的发生。另外,看一看网卡和 HUB接口上的指示灯是否闪烁是否正常也是个不坏的主意。
当然, 如果排除了由于计算机网络协议配置不当而导致故障的可能后, 接下来要做的事情就复杂了。 查看网卡和 HUB的指示灯是否正常,测量网线是否畅通。
2、配置文件和选项
服务器、计算机都有配置选项,配置文件和配置选项设置不当,同样会导致网络故障。如服务器权限的设置不当,会导致资源无法共享的故障。计算机网卡配置不当,会导致无法连接的故障。当网络内所有的服务都无法实现时,应当检查 HUB。
3、网络协议
没有网络协议, 网络内的网络设备和计算机之间就无法通信,所有的硬件只不过是各自为政的单机, 是不能实现资源共享 Modem上网的,从而失去了局域网的重要性。
五、局域网诊断工具
1、软件工具 ping
ping 无疑是网络中最频繁的小工具,它主要用于确定网络的连通性问题。Ping 程序使用 ICMP(网际消息控制协议)协议来简单地发送一个网络数据包并请求应答,接收到请求的目的主机再次使用 ICMP发回相同的数据,于是 ping 便可对每个包的发送和接收时间进行报告,并报告无影响包的百分比,这在确定网络是否正确连接,以及网络连接的状况(包丢失率)十分有用。Ping是 Windows操作系统集成的 TCP/IP 应用程序之一,可以在“开始-运行”中直接执行。
(1)命令格式:
ping 主机名
ping IP 地址
(2) ping 命令的应用
ping 本地计算机名(即执行操作的计算机)
如 ping ybgzpt
或 ping 本地 IP 地址
如 ping127.0.0.1 (任何一台计算机都会将要 27.0.0.1 视为自己的IP地址)
可以检查该计算机是否安装了网卡;是否正确安装了 TCP/ IP 协议;正确配置了 IP 地址和子网掩码或主机名。
(3)使用 Ping 命令后出现的常见错误
出错信息通常分为四种:
①Unknown host
Unknown host (不知名主机),这种出错信息的意思是,该远程主机的名字不能被命名服务器转换成 IP 地址。故障原因可能是命名服务器有故障,或者其名字不正确,或者网络管理员的系统与远程主机之间的通信线路故障。这种情况下屏幕将会提示:
C:windows>ping www.163.net
Unknown host www.163.net
C:windows>
②Network nurea chable
Network nureachable (网络不能到达),这是本地系统没有到达远程系统的路由,可检查路由器的配置,如果没路由,可添加。
③No answer
No answer (无响应),远程系统没有响应。这种故障说明本地系统有一条中心主机的路由,但却接受不到它发给该中心主机的任何分组报文。故障原因可能是下列之一:中心主机没有工作;本地或中心主机网络配置不正确;本地或中心的路由器没有工作;通信线路有故障;中心主机存在路由选择问题。
④Time out
Time out (超时),台站与中心的连接超时,数据包全部。故障原因可能是到路由器的连接问题或路由器不能通过,也可能是中心主机已经关机或死机。此时,屏幕提示:
C:windows>ping 10.11.1.1
Ping 10.11.1.1with 32 bytes of data:
Request timed out.
Request timed out
Request timed out
Request timed out
Ping statistics for 10.11.1.1:
Packets: sent=4,received=0,lost=4(100% lost),
Approximate round trip in milli-seconds:
Minimum=0ms,Maximum=0ms,Average=0ms
C:windows
2、硬件工具网络测试仪
可以用此测试仪测试网线的通断。一般台站没有这种设备,但使用起来很简单,把网线的两端分别插到测试仪上,打开测试仪的电源,其中有 8 个灯,如果都亮则该网线是通的。如果没有网络测试中用三用表测试网线的通断,只是需要两个人用两块表测试。
六、网络故障实例
1、连通性故障
(1)连通性故障的表现
连通性故障通常表现为以下几种情况:
①计算机无法登录到服务器;
②计算机无法通过局域网接入 Internet ;
③计算机在网上邻居中只能看到自己,而看不到其他计算机,从而无法使用其他计算机上的共享资源和共享打印机;
④计算机无法在网络内实现访问其他计算机上的资源;
⑤网络中的部分计算机运行速度十分缓慢。
(2)连通性故障的原因
以下原因可能导致连通性故障:
①网卡未安装,或未安装正确,或与其他设备有冲突;
②网卡硬件故障;
③网络协议未安装,或设置不正确;
④网线、跳线或信息插座故障;
⑤HUB电源未打开, HUB硬件故障,或 HUB端口硬件故障;
⑥UPS电源故障。
(3)通性故障的排除方法
①确认连通性故障
当出现一种网络应用故障时,如无法接入 Internet, 首先尝试使用其他网络应用,如查找网络中的其他计算机,或使用局域网中的 Web浏览等。如果其他网络应用可正常使用,如虽然无法接入 Internet ,却能够在网上邻居中找到其他计算机,或可 Ping 到其他计算机,那么可以排除连通性故障原因。如果其他网络应用均无法实现,继续下面操作。
②LED灯判断网卡的故障
首先查看网卡的指示灯是否正常。正常情况下,在不传送数据时,网卡指示灯闪烁较慢,传送数据时,闪烁较快。无论是不亮,还是长亮不灭,都表明有故障存在。如果网卡的指示灯不正常,需关掉计算机更换网卡。对于 HUB的指示灯,凡是插有网线的端口,指示灯都亮。由于是 HUB,所以,指示灯的作用只能指示该端口连接有终端设备,不能显示通信状态。
③Ping 命令排除网卡故障
使用 Ping 命令 Ping 本地的 IP 地址(如 127.0.0.1 )或计算机名(如 ybgzpt ),检查网卡和 IP 网络协议是否安装完好。如果能 Ping通,说明该计算机的网卡和网络协议设置都没有问题。 问题出在计算机与网络的连接上。 因此, 应当检查网线和 HUB及 HUB的接口状态,如果无法 Ping 通,只能说明 TCP/ IP 协议有问题。这时可以在计算机的“控制面板”的“系统”中,查看网卡 已经安装或是否出错。
如果在系统中的硬件列表中没有发现网络适配器,或网络适配器前方有一个黄色的“!”,说明网卡未安装正确,需将未知设备或带有黄色的“!”网络适配器删除,刷新后,重新安装网卡。并为该网卡正确安装和配置网络协议,然后进行应用测试。如果网卡无法正确安装,说明网卡可能损坏,必须换一块网卡重试。如果网卡安装正确则原因是协议未安装。
④如果确定网卡和协议都正确的情况下,还是网络不通,可初步断定是 HUB和双绞线的问题。为了进一步进行确认,可再换一台计算机用同样的方法进行判断。如果其他计算机与本机连接正常,则故障一定是先前的那台计算机和 HUB的接口上。
⑤如果确定 HUB有故障,应首先检查 HUB的指示灯是否正常,如果先前那台计算机 HUB 接口灯不亮说明该 HUB的接口有故障( HUB的指示灯表明插有网线的端口,指示灯亮,指示灯不能显示通信状态)。
⑥如果HUB没有问题是否检查先前那台计算机到 HUB的那一段双绞线故障和所安装的网卡。 判断双绞线是否有问题可以通过“双绞线测试仪”或用两块三用表分别有两个人在双绞线的两端测试。主要测试双绞线的 1、2 和 3、6 四条线(其中 1、2 线用于发送, 3、 6 线用于接收)。如果发现有一根不通就要重新制作。
通过上面的故障压缩,我们就可以判断故障出在网卡、双绞线或 HUB上。
2、协议故障
(1)协议故障的表现
协议故障通常表现为以下几种情况:
①计算机无法登录到服务器;
②计算机在“网上邻居”中即看不到自己,也看不到其他计算机,或者找不到其他计算机;
③计算机在“网上邻居”中能看到自己和其他成员,但无法访问其他计算机上的资源(如拷贝);
④计算机在“网上邻居”中既看不到自己,也无法在网络中访问其他计算机上的资源。
⑤计算机无法通过局域网接入 Intetnet
⑥重复的计算机名。
(2)产生故障的原因
①协议未安装。实现局域网通信,需安装 NetBEUI 协议。
②协议配置不正确。 TCP/IP 协议涉及到的参数有四个,包括 IP 地址、子网掩码、 DNS(域名解析服务)网关,任何一个设置错误,都会导致故障发生。
③网络中有一个或两个以上的计算机重名。
(3)协议故障的排除步骤
当计算机出现以上协议故障现象时,应当按照以下步骤进行故障的定位:
①检查计算机安装 TCP/IP 和 NetBEUL协议,如果没有,建议安装这两个协议,并把 TCP/ IP 参数配置好,然后重新启动计算机。
②使用 ping 命令,测试与其他计算机的连接情况;
③在“控制面板”的“网络”属性中,单击“文件及打印共享”按钮,在弹出的“文件及打印共享”对话框中检查一下,看看是否选中了“允许其他用户访问我的文件”和“允许其他计算机使用我的打印机”复选框,或者其中的一个。如果没有,全部选中或选中一个。否则将无法共享文件夹;
④系统重新启动后,双击“网上邻居”,将显示网络中的其他计算机和共享资源。如果仍看不到其他计算机,可以使用“查找”命令,能找到其他计算机,就一切 OK了;
⑤在“网络”属性的“标识”中重新为该计算机命名,使其在网络中具有唯一性。
3、配置故障
配置错误也是导致故障发生的重要原因之一。网络管理员对服务器、路由器等的不当设置自然会导致网络故障,计算机的使用者(特别是那些似懂非懂的初学者)对计算机设置的修改,也往往会产生一些令人想不到的访问错误。
(1)配置故障表现及分析
配置故障更多的时候是表现在不能实现网络所提供的各种服务上,如不能访问某一台计算机等。因此,在修改配置前,必须做好原有的记录,并最好进行备份。
配置故障通常表现为以下几种:
计算机只能与某些计算机而不是全部计算机进行通信;
计算机无法访问任何其他设备。
(2)配置故障排错步骤:
首先检查发生故障计算机的相关配置。如果发现错误,修改后,再测试相应的网络服务能否实现。如果没有发现错误,或相应的网络服务不能实现,执行下述步骤。
测试系统内的其他计算机是否有类似的故障,如果有同样的故障,说明问题出在网络设备上,如 HUB。反之,检查被访问计算机对该访问计算机所提供的服务。
计算机的故障虽然多种多样,但并非无规律可循。随着理论知识和经验技术的积累,故障排除将变得越来越快,越来越简单。严格的网络管理,是减少网络故障的重要手段;完善的技术档案,是排除故障的重要参考;有效的测试和监视工具(象美萍网络管理软件、修改注册表、优化软件等),是排除故障的有力助手。
文章源自网络,仅供交流参考