网络可靠性的定义
根据国家标准GB-6583的规定,产品的可靠性是指:设备在规定的条件下、在规定的时间内完成规定的功能的能力。对于网络系统的可靠性,除了耐久性外,还有容错性和可维护性方面的内容。
1、耐久性。是指设备运行的无故障性或寿命,专业名称叫MTBF(Mean Time Between Failure),即平均无故障时间,它是描述整个系统可靠性的重要指标。对于一个网络系统来说,MTBF是指整个网络的各组件(链路、节点)不间断无故障连续运行的平均时间。
2、容错性。专业名称叫MTTR(Mean Time to Repair),即系统平均恢复时间,是描述整个系统容错能力的指标。对于一个网络系统来说,MTTR是指当网络中的组件出现故障时,网络从故障状态恢复到正常状态所需的平均时间。
3、可维护性。在系统发生故障后,能够很快地定位问题并通过维护排除故障,这属于事后维护;根据系统告警提前发现问题(如CPU使用率过高,端口流量异常等),通过更换设备或调整网络结构来规避可能出现的故障,这属于预防维护。可维护性需要管理人员来实施,体现了管理的水平,也反映了系统可靠性的高低。
表示系统可靠性的公式为:
MTBF / ( MTBF + MTTR ) * 100%。
从公式或以看出,提高MTBF或降低MTTR都可以提高网络可靠性。造成网络不可用的因素包括:设备软硬件故障、设备间链路故障、用户误操作、网络拥塞等。针对这些因素采取措施,使网络尽量不出故障,提高网络MTBF指标,从而提升整网的可靠性水平。
然而,网络中的故障总是不可避免的,所以设计和部署从故障中快速恢复的技术、缩小MTTR指标,同样是提升网络可靠性水平的手段。
在网络架构的设计中,充分保证整网运行的可靠性是基本原则之一。网络系统可靠性设计的核心思想则是,通过合理的组网结构设计和可靠性特性应用,保证网络系统具备有效备份、自动检测和快速恢复机制,同时关注不同类型网络的适应成本。
构建可靠的网络,需要从耐久性、容错性以及可维护性三个方面进行网络规划设计。而网络的规划设计是个系统工程,不同的设计方案的可靠性性效果不尽相同,这就需要以科学的方法进行设计,构建符合需要的可靠性网络。
一、网络解决方案可靠性的设计原则
不同的网络,其可靠性的设计目标是不同的。网络解决方案的可靠性需要根据实际需求进行设计。高可靠性的网络不但涉及到网络架构、设备选型、协议选择、业务规划等技术层面的问题,还受用户现有网络状况、网络投资预算、用户管理水平等影响,因此在规划可靠性网络时需要因地制宜,综合考虑各方面的影响因素。
网络结构通常分核心层、汇聚层和接入层。网络层次越高其可靠性要求也越高。在网络的方案设计中,采用层次化的网络设计结构,不同层次解决不同级别的可靠性要求。为保证网络可靠性,可靠性技术的实施并不是简单叠加和无限制的冗余。否则,一方面会增加网络建设整体成本,另一方面还会增加管理维护的复杂度,给网络引入潜在的故障隐患。因此在进行规划时,应该根据网络结构、网络类型和网络层次,分析网络业务模型,确定基础网络拓扑,明确对网络可靠性***的关键节点和链路,合理规划和部署各种网络高可用技术。
在网络可靠性规划实施时,应在保证网络各层次可靠性要求的基础上,尽量降低复杂度,适度地控制成本,才能设计出最适合的方案。不能为追求单纯可靠性而忽视系统的整体成本和性能,构建可靠性网络是一个平衡各方面因素的过程。所以对于网络可靠性,没有***的方案,只有最合适的方案。#p#
二、解决方案可靠性的设计方法实例
1、网络接入层可靠性方案
可靠的接入层应提供以下主要特性:
使用冗余引擎和冗余电源获得系统级冗余,为关键用户群提供高可靠性;
与具备冗余系统的汇聚层进行双归属连接,获得缺省网关冗余,支持在汇聚层的主备交换机间快速实现故障切换;
通过链路汇聚提高带宽利用率,同时降低复杂性;
通过配置802.1X,动态ARP检查及IP源地址保护等功能增加安全性,有效防止非法访问。
接入层到汇聚层有四种连接方式,如表1所示。可以看出,三角形组网(拓扑4)提供了更高的接入可靠性以及更灵活的扩展能力,所以建议采用三角形组网方式。由于接入层三角形组网存在二层环路,所以需要在交换机上使能多生成树协议MSTP。汇聚层交换机部署虚拟路由器冗余协议VRRP,将VRRP组的虚拟IP地址作为服务器网关。
图1. 高可靠性接入典型组网
接入层的四种拓扑的比较:
拓扑
|
优点
|
缺点
|
1
倒U形
|
不启用STP,网络管理简单。
VLAN可以跨汇聚层交换机,二层的扩展灵活。
|
汇聚交换机故障时,造成其同侧接入交换机上的服务器不可达,无法实现高可用接入
|
2
U形
|
不启用STP,网络管理简单。
接入交换机与汇聚交换机之间有冗余链路。
|
VLAN不能跨汇聚交换机,部署不灵活。接入交换机间链路故障时,VRRP心跳报文无法传递,网络处于不稳定状态。
|
3
矩形
|
接入交换机与汇聚交换机之间有冗余链路。
VLAN可以跨汇聚层交换机
|
当接入交换机上行链路故障时,所有流量将从另一侧的交换机上行,网络收敛比变小,网络易拥塞,降低了网络可靠性。
|
4
三角形
|
接入交换机与汇聚交换机之间有冗余链路、冗余路径。
VLAN 可以跨汇聚层交换机,部署灵活
|
生成树计算比矩形拓扑复杂。
|
表1. 四种拓扑连接方式的对比#p#
2、网络汇聚层可靠性方案
汇聚层应使用与核心层相同结构的冗余节点备份连接,以实现最快速的路由收敛并避免黑洞产生。汇聚层做三层接入网关时,还需要通过VRRP等协议实现网关的冗余备份和流量的负载分担。汇聚层边界发生链路或节点故障时,收敛速度取决于缺省网关冗余与故障切换,通过合理地配置协议定时器,可达到秒级的收敛速度。
汇聚层到核心层间采用OSPF等动态路由协议进行路由层面高可用保障。常见连接方式有两种,如图2所示。左图组网方式从汇聚层到核心层具有全冗余链路和转发路径;右图组网方式从汇聚层到核心层没有冗余链路,当主链路发生故障时,需要通过路由协议计算获得从汇聚到核心的冗余路径。所以,三角形拓扑的故障收敛时间较小,但要占用更多的设备端口,建网成本略高。
图2. 汇聚层与核心层的拓扑
3、核心层可靠性方案
核心层设备作为网络的骨干,需要能提供快速的数据交换和极高的永续性。从备份和负载分担的角度可选用双核心或多核心;从单台设备考虑,选用交换性能和可靠性高的设备,支持双主控、电源冗余、风扇冗余、分布式转发等特性。并降低核心设备配置的复杂度,减少出现错误的几率。
尽量在核心使用冗余的点到点三层互联(如图2左图),因为这种设计可产生最快速、最确定的收敛结果。将核心设计为只使用硬件加速业务的三层交换环境要优于二层的设计,因为在链路或节点故障时能提供更快的收敛速度、通过减少路由邻接关系和网络拓扑提高可扩展性、通过等价多路径提高带宽利用率。
4、IRF虚拟化技术提高可靠性
图3. 传统架构网络拓扑与IRF架构网络拓扑对比#p#
传统架构为保证网络高可靠性通常采用MSTP+VRRP,这种组网需要在接入交换机与汇聚交换机间运行MSTP协议,管理和维护较复杂。但当接入交换机和汇聚交换机都采用H3C IRF智能弹性架构技术之后,可将每两台交换机(也可以是多台)配置成一个IRF堆叠组,两台汇聚交换机也配置成一个堆叠组,接入交换机与汇聚交换机之间通过捆绑链路连接,如图3所示。从逻辑上看,一个堆叠组就是一台设备,因此接入交换机和汇聚交换机间不存在二层环路,可以避免MSTP的配置管理,简化网络设计。
图4是采用IRF设计时的网络高可靠性切换方式。情况A是正常转发路径,服务器流量经过网络接入层和汇聚层的IRF堆叠组。情况B,当接入层IRF堆叠组的一台交换机出现故障,服务器网卡进行切换,通过IRF另一台交换机即可恢复网络通信,而汇聚层设备无需任何变化,数据流仍从同一聚合链路进入网络。情况C,汇聚层设备出现单台故障,服务器不感知,只由接入交换机将流量转发到聚合链路,汇聚层存活的交换机感知的仍是从现有聚合链路接收数据流。情况D,发生捆绑链路故障,交换机会将数据流转发到捆绑组存活链路上,对于IRF交换机组来说,数据流转的逻辑接口并未改变。
IRF的实施可以提供更高的网络可靠性,进一步简化网络管理。
图4. IRF组网的HA部署
5、综合可靠性组网模型
网络按照分层、模块化的思路进行设计和规划,根据业务等规划因素进行模块化区域划分,每个区域有自己的汇聚核心与网络核心互连,如图5所示。
图5.综合可靠性组网模型
网络汇聚层以上都为三层设备,配置OSPF协议,网络故障收敛速度快,易于管理和维护。接入层千兆双归属到汇聚层设备,提供链路冗余备份。汇聚采用双机备份,双归属到核心层。核心层设备通过高速链路连接,完成数据交换和双机热备份。对于设备较多的网络,核心层可考虑使用多台设备搭建RPR环或RRPP环替代双机热备份。核心设备要求支持双主控、电源/风扇冗余、跨板聚合以提高可靠性。#p#
可靠性网络的主要故障恢复时间指标如表2所示:
网络故障
|
收敛性能
|
接入-汇聚/汇聚-核心链路故障
|
500毫秒
|
汇聚层设备故障
|
1秒
|
核心层设备故障
|
500毫秒
|
汇聚/核心层设备双主控切换
|
200毫秒
|
链路聚合故障
|
1秒
|
表2.可靠性网络主要性能指标
三、总结
高可靠性永远是网络必不可少的重要需求。网络系统的可靠性就像自然界的生态平衡,维系着系统的正常运转,一旦平衡被打破,需要具备自我恢复的能力。一个可靠的网络系统,能够保证长期的正常运转,在极低的概率情况下才出现故障。高可靠性的设备和可靠性技术(如冗余备份和IRF)是保证以上可靠性的基础。
网络解决方案是一个系统,其可靠性的程度更大程度上取决于设计方案。好的设计方案在保证可靠性的前提下,能简化系统的复杂度,提高系统可维护性,并控制成本在合理的范围内。只有真正理解用户需求,并在广泛实践的基础上才能形成满足用户需要的可靠性解决方案,在这个过程中方案设计是核心,网络解决方案的可靠性是设计出来的。