城域网出口两台NE5000E同时停止转发的故障解决步骤如下:
网络环境
全省城域网出口为两台NE5000E,上行至国干C厂家设备,NE5000E将城域网路由聚合后,在本地配置黑洞路由,再发布国干;NE5000E向城域网内部发布缺省路由。故障时两台NE5000E全部停止转发,全省流量中断,该故障共发生两次,***次未做任何操作30分左右自动恢复,第二次中断通过重启其中一台NE5000E后恢复。
图城域网出口两台NE5000E同时停止转发故障组网图
故障分析
该问题发生两次,都是国干设备停止转发导致,我司两台设备同时出现问题的可能性很小,排除硬件原因。
结合城域网网管对NE5000E上行接口和下行接口流量监控的结果、以及城域网频繁路由振荡,判断该问题是由于城域网内部存在路由振荡,触发国干设备对路由进行抑制,导致故障发生。
操作步骤
步骤 1 使用trace操作发现流量终结到NE5000E。
步骤 2 检查NE5000E各表项状态均正常,而且有出流量。
步骤 3 NE5000E入流量几乎为零。
可能的原因如下:
两台NE5000E同时出现故障。
上行国干设备没有转发。
步骤 4 通过省内网管监控接口的流量图发现,两台NE5000E上行接口的入流量经常切换,两台设备的入流量均为零时则出现事故。通过流量图发现,第二次事故时通过重启一台NE5000E恢复,重启后城域网所有流量全部切换到重启这台设备,再过30分钟左右,整个城域网流量恢复到正常模型。
步骤 5 可以排除两台NE5000E同时出现故障,故障原因与国干设备收敛相关。
步骤 6 检查NE5000E的BGP路由更新报文的统计结果,发出的update报文比正常情况高出10多倍,存在路由振荡,随即检查NE5000E日志,发现有ospf路由撤销记录。
步骤 7 再详细检查NE5000E路由条目发现,NE5000E发布给国干的是ospf路由,并不是手工配置的黑洞路由,ospf路由引入bgp后,震荡导致国干路由抑制。
步骤 8 调整黑洞路由的优先级高于OSPF路由,故障不再发生。
步骤 9 导致路由振荡的原因是NE5000E配置的黑洞路由与R厂家设备冲突。
----结束
案例总结
处理问题要从全网整体考虑,当存在多种路由时,要规划好路由优先级的配置。
【编辑推荐】