路由振荡原因分为两个方面:
一个是由于链路状态的改变造成的路由改变,如果采用IS-IS或OSPF的路由发现,由于该问题要靠Hello包的检测,同时检测一次还不行,还需要检测几次。一般情况下,从链路中断到新路由选定需要几秒到几十秒的时间,这样的问题发生在骨干网上将大大地影响实时多媒体业务的质量,该问题主要通过使用MPLS的FRR能力加以保护。
另一个路由振荡问题主要是网络设计不严谨造成的,对于出现大量的同值选路或大量的RouteReLookup或路由状态更新振荡的情况,防止问题的主要方案是在设计网络时要求所有的流量的方向和选路都需要监控者明确地加以检查。
下面让我们看看传输网告警导致整网路由震荡的故障解决办法。
网络环境
在图2-1的网络中,NE80E设备通过POS4/0/0端口与传输网络设备连接。
图2-1 设备组网图
配置完成后,发现NE80E与传输设备相连的POS4/0/0端口存在大量的端口UP、DOWN告警。同时,由于端口的UP、DOWN又造成路由协议的震荡,使整个网络不稳定。
故障分析
步骤 1 在NE80E上执行display logbuffer命令。
显示信息如下:
Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP(l):Slot=3;Pos4/0/0 change status to up.
Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface Pos4/0/0 has entered the UP state.
Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP2DWN(l):Slot=3;Pos4/0/0 change status to down due to being shut.
Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface GigabitEthernet3/0/0 has entered the DOWN state.
由显示信息发现NE80E的POS4/0/0接口出现大量的快速Up、Down状态切换,同时,POS4/0/0接口的路由协议也存在大量的快速Up、Down状态切换。
步骤 2 查询网管设备,发现收到大量NE80E设备接口快速Up、Down信息。
步骤 3 在NE80E上执行display trapbuffer命令,发现传输设备经常会出现2-5毫秒的传输告警。
默认情况下路由器接收到传输告警会立即响应,导致路由协议中断后重建,造成整网路由震荡。
----结束
处理步骤
在NE80E上分别执行以下操作。
步骤 1 执行命令system-view,进入系统视图。
步骤 2 执行命令interface Pos 4/0/0,进入接口视图。
步骤 3 执行命令alarm lrdi sensitive,配置POS接口所在的LPU对lrdi类型的告警信息进行响应。
步骤 4 执行命令alarm pais sensitive,配置POS接口所在的LPU对pais类型的告警信息进行响应。
步骤 5 执行命令alarm prdi sensitive,配置POS接口所在的LPU对prdi类型的告警信息进行响应。
说明:通过步骤3、4、5,使能POS4/0/0接口所在的LPU对告警信号进行响应。
步骤 6 执行命令carrier down-hold-time 50,配置接口对传输告警抑制时间。
说明:默认传输告警抑制时间为0ms。
----结束
完成上述操作后,当设备收到传输告警,系统会在接口状态变化后的50毫秒后,才响应接口的状态变化。这样可以避免由于接口状态频繁变化而引起的震荡。故障排除。
案例总结
两台相距较远的路由器通过POS口连接,不能直接用光连接器相连,中间有传输设备。如果传输设备之间的链路中断了,光传输设备可以感知,但路由器不能立即感知相关的端口失效(和传输设备之间的光路正常),快速切换功能不能实现。
在路由器上配置POS接口响应传输设备告警功能后(缺省情况下,POS接口所在的LPU不对告警信息进行响应),当路由器收到光传输设备发送的告警信息,会通告POS接口Down。
然而在传输链路不稳定导致遇到大量POS接口Up、Down告警时,会引起可以路由协议中断后重建,造成整网路由震荡。解决办法是引入传输告警抑止,当接口状态发生变化时,系统会在接口状态变化后的一段间隔后,才响应接口的状态变化。这样可以避免由于接口状态频繁变化而引起的震荡。
【编辑推荐】