高端路由器设备可靠性能全解

网络 路由交换
文章主要分析了高端路由器设备的可靠性和技术特点,就目前路由器发展来看,其高端设备已经非常先进,同时也能满足用户的需求。

高端路由器设备有很多值得学习的地方,这里我们主要介绍设备级可靠性技术,包括介绍电源风扇冗余、不间断转发技术NSF/GR等方面。随着IP技术的飞速发展,各种增值业务在互联网上得到了广泛的应用。新兴的NGN/3G、IPTV流媒体、大客户专线和VPN互联等重要的电信级业务,对IP电信网的可靠性提出了很高的要求。电信级业务对于IP网络的可靠性主要包括三个层面:设备可靠性、链路可靠性和网络可靠性。在承载网中,网络设备的可用性要求达到99.999%,大致相当于设备在一年的连续运行中因各种可能原因造成停机维护的时间少于5分钟。高可靠性是电信级设备的基本要求,是电信运营商建设网络的基本出发点。

设备级可靠性技术主要包括:

热插拔技术,是指在设备不关机运行时,直接插拔部件或单板,而不影响其他部件或单板的业务。热插拔功能包括:往机框中新增或去掉单板而不影响在用单板;在线更换单板,即拔出单板换一块新单板(或原单板重新插入)时,新单板能继承原来的配置,并且不影响其他单板的工作。对于分布式设备,在添加或插拔单板时,FIB(Forwarding Information Base)表能同步到单板。华为NE系列高端路由器设备所有组件支持热插拔功能,包括主控板、交换网板、电源、风扇和各种业务单板。通过热插拔功能,用户可以在不影响业务的情况下,对组件进行维护更新,扩展更多业务,增加更多用户,提供更多的功能等。

电源风扇冗余

电源是设备运行保障的基础。一旦电源出现问题,设备将无法正常启动,所以电源冗余是必需的。电源冗余包括电源输入的冗余和设备电源模块的冗余。为了保证设备电源输入的稳定,高端路由器设备一般提供双路或多路电源输入。当一路电源输入出现故障时,能自动切换到其他电源输入,不影响设备正常运行。另外,高端路由器设备还采用多个电源模块供电,采取N+1备份方式,一个电源模块与其他N个电源模块同时工作并为其提供备份,在某一个电源模块出现故障时,其它电源立即分担故障电源的负载,从而保证始终提供足够的电源功率,保证设备正常运行。风扇作为散热的重要手段,对设备稳定运行有着直接的影响。当风扇出现故障,如果不能及时散热,设备内部会产生高温高热,可能会发生芯片、板卡烧毁等现象。所以风扇冗余也是非常重要的,高端路由器设备一般提供多个风扇框,可以在线更换其中的风扇框,不影响设备功能。

主控冗余

主控板MPU(Main Processing Unit)是整个路由器的核心,承担整个系统的路由处理、资源管理、状态监测、网管代理等全局功能。一般还集成了三级时钟、CF(Compact Flash)卡等功能模块,有些设备的MPU甚至还包含了交换网模块,为整个高端路由器设备提供交换平面。主控板冗余意味着同时也实现了时钟冗余、存储设备冗余和交换网冗余等功能,这里主要介绍主控冗余技术。

在设备只有单主控的情况下,如果主控板故障,重起主控板需要加载映象文件、初始化配置、重新注册业务板,然后重建控制平面和转发平面表项,整个过程需要耗费数分钟的时间。这个时间对于电信网络来说是无法忍受的,尤其是对于网络中处于单点故障的节点来说更是如此,因为业务在这个过程中会完全中断,将会造成巨大的损失。所以为了缩短主控重启时间,减少业务中断带来的损失,高端路由器设备必须采用主控冗余技术。主控冗余是指设备提供两块主控板,互为备份。其中一块为主用主控板(Master),处于工作状态,另一块作为备用主控板(Slave),处于备份状态。主用主控板运行过程中,将所有静态配置信息和一部分动态信息备份到备用主控板,使得备用主控板具有和主用主控板相同的配置信息。当主控板因为硬件或软件失效出现故障时,备用主控板接管失效主控板的工作,重新启动控制平面和管理平面工作,保证路由器在较短的时间内能恢复正常。主用主控板(Master)与备用主控板(Slave)之间的切换检测手段可以采用硬件心跳,也可以使用IPC通道或其他方式。

和单主控相比,双主控的收敛性能要好得多。因为在双主控情况下,Slave已经预先完成映象文件的加载和配置的初始化工作,主备切换时业务板不需要重新注册,二三层接口也不会出现up/down。另外,Slave上也已经备份有转发表项,可以立即承担转发任务,在一定程度上可以避免业务中断。

不过,由于新的Master在主备切换前不参与控制平面的处理,在切换后需要重新和邻居进行会话协商,所以虽然保存了完整的转发表项,但只能避免部分流量不中断。比如,二层业务以及从本设备往外发送的流量不会中断;另外,如果和邻居之间配置的是静态路由或静态LSP的话,流量也不会中断。但如果和邻居之间是动态路由协议或动态标签分发协议,和邻居之间的流量就会发生中断,这是因为控制平面会话重置的情况下,邻居的控制平面会重新计算,选择它认为合适的路径。以OSPF协议为例,新Master在发出的Hello报文中没有原来邻居的RID,会导致邻居把OSPF会话状态重置,并把和发生切换的高端路由器设备相关的LSA删除,导致路由重新计算。如果有其他可选路径,流量会绕开发生主备切换的设备,如果没有可选路径,则需要等待OSPF重新收敛,在收敛完成之前,邻居不会把流量发给发生主备切换的高端路由器设备。

不间断转发技术NSF/GR

从以上分析中可以看出,路由器进行主备切换时,在路由协议层面会与邻居之间发生震荡。这种邻居关系的震荡将最终导致路由震荡的出现,使得主备切换路由器在一段时间内出现路由黑洞或者导致邻居将数据业务进行旁路,进而会导致业务出现暂时中断。不间断转发NSF(None Stop Forwarding)是一项重要的高可靠性技术,它可以保证路由器控制层面出现故障(如故障重启或路由震荡)时,数据转发不间断地正常进行,从而保护网络各种流量几乎不受影响。首先要求路由器具有分布式体系结构,数据转发与控制分离,支持双主控设计,在发生主备切换时,备板必须能成功保存IP/MPLS转发表项(转发平面)。
 
其次,根据需要,可能需要部分保存协议的状态(控制平面)。对于OSPF、IS-IS、BGP、 LDP这些比较复杂的协议来说,完全备份其控制平面复杂的状态,从实现上来说代价太大或根本就不可行。相反,通过对目前的协议在尽量保持前向兼容的情况下进行一定程度的扩展,可以较为简单的通过部分备份(或根本不用备份)协议状态,并借助邻居高端路由器设备的帮助,实现发生主备切换时控制平面的会话连接不重置,转发不中断的目的。

这些实现控制层面不重置的技术统称为路由协议的Graceful Restart扩展,简称GR。GR技术是避免在重启主备倒换的时候邻居关系发生震荡(flap),一旦重启后,重启路由器尽快完成与邻居路由器的路由信息的同步,然后更新本地路由信息。目前GR实现一般都需要邻居路由器的协助(Helper),要求Helper能够感知到邻居发生GR,并能辅助邻居完成GR,这样对网络中的Helper也提出很高的要求。目前具备GR能力的路由协议主要有OSPF、IS-IS、BGP、LDP等,虽然各个协议都有自己独特的实现,但基本原理是相似的。

 

责任编辑:王晓东 来源: NET130
相关推荐

2009-11-11 18:07:07

路由器设备

2010-08-06 14:08:50

路由器配置命令

2011-09-08 11:15:51

思科路由器如何限速路由器设置思科路由器

2009-12-11 16:42:44

思科路由器模式

2010-08-04 10:19:45

路由器配置

2010-11-04 10:25:47

思科路由器限速

2010-08-03 14:17:17

路由器密码

2009-11-10 15:18:03

思科路由器常用配置命令

2009-11-13 11:32:33

路由器设置

2009-11-11 09:50:25

思科路由器口令恢复

2009-12-18 14:20:49

路由器性能

2009-11-13 17:38:12

SOHO宽带路由器

2009-11-16 17:31:37

SOHO路由器

2009-11-10 16:03:44

2009-11-24 17:13:45

无线路由器

2010-12-28 20:16:24

2010-08-16 11:14:25

路由器综合对比

2009-12-30 10:01:00

低端路由器高端路由器

2009-12-17 16:20:20

城域网路由器

2009-11-26 14:40:51

无线路由器
点赞
收藏

51CTO技术栈公众号