路由故障:传输网告警导致整网路由震荡

运维 网络运维
路由振荡是一个非常难于解决的问题,由于路由器原理的问题(相对于交换机来说),总有一些时间可能处于较忙的时间,这可能令到单台路由器的延迟增加到100ms以上,这样就会造成多媒体会议系统的质量发生下降。产生这样的情况有时候不见得是由于线路上流量过多造成的,有可能在20%~30%的带宽下也会发生这样的事情。这样的问题主要是由于路由器的Buffer设置的问题造成的。

路由振荡原因分为两个方面:
一个是由于链路状态的改变造成的路由改变,如果采用IS-IS或OSPF的路由发现,由于该问题要靠Hello包的检测,同时检测一次还不行,还需要检测几次。一般情况下,从链路中断到新路由选定需要几秒到几十秒的时间,这样的问题发生在骨干网上将大大地影响实时多媒体业务的质量,该问题主要通过使用MPLS的FRR能力加以保护。

另一个路由振荡问题主要是网络设计不严谨造成的,对于出现大量的同值选路或大量的RouteReLookup或路由状态更新振荡的情况,防止问题的主要方案是在设计网络时要求所有的流量的方向和选路都需要监控者明确地加以检查。

下面让我们看看传输网告警导致整网路由震荡的故障解决办法。

网络环境

在图2-1的网络中,NE80E设备通过POS4/0/0端口与传输网络设备连接。

图2-1 设备组网图

路由故障:传输网告警导致整网路由震荡

 

配置完成后,发现NE80E与传输设备相连的POS4/0/0端口存在大量的端口UP、DOWN告警。同时,由于端口的UP、DOWN又造成路由协议的震荡,使整个网络不稳定。

故障分析

步骤 1     在NE80E上执行display logbuffer命令。

显示信息如下:

Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP(l):Slot=3;Pos4/0/0 change status to up.

Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface Pos4/0/0 has entered the UP state.

Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP2DWN(l):Slot=3;Pos4/0/0 change status to down due to being shut.

Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface GigabitEthernet3/0/0 has entered the DOWN state.

由显示信息发现NE80E的POS4/0/0接口出现大量的快速Up、Down状态切换,同时,POS4/0/0接口的路由协议也存在大量的快速Up、Down状态切换。

步骤 2     查询网管设备,发现收到大量NE80E设备接口快速Up、Down信息。

步骤 3     在NE80E上执行display trapbuffer命令,发现传输设备经常会出现2-5毫秒的传输告警。

默认情况下路由器接收到传输告警会立即响应,导致路由协议中断后重建,造成整网路由震荡。

----结束

处理步骤

在NE80E上分别执行以下操作。

步骤 1     执行命令system-view,进入系统视图。

步骤 2     执行命令interface Pos 4/0/0,进入接口视图。

步骤 3     执行命令alarm lrdi sensitive,配置POS接口所在的LPU对lrdi类型的告警信息进行响应。

步骤 4     执行命令alarm pais sensitive,配置POS接口所在的LPU对pais类型的告警信息进行响应。

步骤 5     执行命令alarm prdi sensitive,配置POS接口所在的LPU对prdi类型的告警信息进行响应。

说明:通过步骤3、4、5,使能POS4/0/0接口所在的LPU对告警信号进行响应。

步骤 6     执行命令carrier down-hold-time 50,配置接口对传输告警抑制时间。

说明:默认传输告警抑制时间为0ms。

----结束

完成上述操作后,当设备收到传输告警,系统会在接口状态变化后的50毫秒后,才响应接口的状态变化。这样可以避免由于接口状态频繁变化而引起的震荡。故障排除。

案例总结

两台相距较远的路由器通过POS口连接,不能直接用光连接器相连,中间有传输设备。如果传输设备之间的链路中断了,光传输设备可以感知,但路由器不能立即感知相关的端口失效(和传输设备之间的光路正常),快速切换功能不能实现。

在路由器上配置POS接口响应传输设备告警功能后(缺省情况下,POS接口所在的LPU不对告警信息进行响应),当路由器收到光传输设备发送的告警信息,会通告POS接口Down。

然而在传输链路不稳定导致遇到大量POS接口Up、Down告警时,会引起可以路由协议中断后重建,造成整网路由震荡。解决办法是引入传输告警抑止,当接口状态发生变化时,系统会在接口状态变化后的一段间隔后,才响应接口的状态变化。这样可以避免由于接口状态频繁变化而引起的震荡。
 

【编辑推荐】

  1. 路由器故障:登录SSH服务器失败
  2. 路由故障:无法识别备用主控板的CF卡
  3. 故障分析:SSH的攻击导致CPU利用率突发增高
责任编辑:佚名 来源: 51CTO整理
相关推荐

2011-04-08 18:01:58

路由

2011-06-07 11:07:39

路由流量

2011-04-08 18:17:40

路由OSPF

2010-09-14 15:15:47

2011-04-08 18:05:31

2020-03-05 12:26:57

传送网传输网承载网

2011-04-08 18:10:31

路由

2011-04-06 16:20:27

广域网POS

2011-06-07 11:30:31

路由

2010-08-25 10:24:40

2011-03-17 16:52:50

路由器故障

2011-08-23 09:37:49

路由路由策略

2011-03-17 16:18:14

2011-04-08 17:10:54

路由静态路由

2011-04-08 17:22:40

路由

2013-01-04 10:25:00

2011-08-23 09:54:26

路由BGP

2010-08-31 09:52:25

无线路由器

2009-11-12 15:06:46

路由器故障

2010-08-25 14:10:34

点赞
收藏

51CTO技术栈公众号