【51CTO.com 综合报道】对数据中心使用的交换机而言,高可靠性毋庸置疑是一项基本需求,设备中所有功能和特性都是建立于可靠性基础之上的,脱离高可靠性而谈其他特性,就像建在沙子上面高楼,好看不实用。一个缺乏高可靠性设计的网络系统,轻则使得维护工作量增加,重则带来巨大的经济损失和政治影响。
尤其在当今,互联网已渗透到社会中各个领域的时代中,网络是否稳定可用,决定着生产业务是否可以有序的进行,特别是IT系统的核心位置--数据中心的网络设备,高可靠性更是必须重点考虑的特性。
那么面对数据量飞涨和服务质量要求不断提升的现状,数据中心级的设备究竟应该具备怎样的高可靠性?在这一点上,H3C于今年发布的国内首款基于100G平台的数据中心级核心交换机S12500,全力打造数据中心的高可靠性,给我们提供了有力的参考依据。
不丢包——可靠性“最高境界”
要弄清楚网络设备应该具备怎样的高可靠性,我们首先要明确网络的可靠性应该如何衡量。H3C网络产品线副总裁孙德和介绍,一个令人放心的网络首先不能频繁出现故障,IP承载网即使只出现很短时间的中断,都会影响业务运营,特别是时性强、对丢包和时延敏感的业务,如语音、视频和在线游戏等。其次,高可靠性的网络即使出现故障,也应该能很快恢复。如果一个网络一年仅出一次故障,但这次故障需要几个小时,甚至几天才能恢复,那么这个网络也算不上一个高可靠的网络。
因此,故障次数少、恢复时间短两个特征是高可靠性网络的重要特点,我们一般用平均无故障时间(MTBF:Mean Time Between Failures)和平均修复时间(MTTR:Mean Time To Repair)这两个概念来对其分别加以对应。也就是说,如果要提高网络的可靠性,一方面要提高网络设备硬件和软件本身的质量,另一方面,以最快的速度发现故障,并快速从故障状态中恢复出来,从而减小MTTR来实现网络高可靠性。
但孙德和强调,无论是提高MTBF或者降低MTTR,都无法完全保证网络不出现任何故障,对于网络可靠性的“终极目标”来说,要让用户对网络系统彻底放心,只有实现数据转发的丢包率实现“0”,才能让系统能够始终保持稳定,保证业务的连续性。这是网络可靠性的“最高境界”,也是所有网络设备力求达到的目标。
提高可靠性“三条大道”
明确了网络可靠性衡量标准,那么具体到网络设备而言,究竟要朝哪些方向努力,才能尽可能得到更高的可靠性衡量值呢?作为IP网络领军者的H3C在这个问题上,有着十分明确而严格的答案。H3C网络产品线副总裁孙德和表示,要想提高网络设备的高可靠性,主要需要围绕着以下四个方面来展开。
首先是网络架构的高可靠性,一个普通的二、三层网络和一个虚拟化网络架构相比,其整体的可靠性、可用性是有天壤之别的。S12500作为网络核心,其组网形式决定了整个网络的基础架构。目前包括S12500在内的H3C全系列交换机都支持IRF2虚拟化特性,通过IRF2架构一个全新的虚拟化网络,不仅扩展了设备的端口数量和交换能力,提高了的可扩展性和可管理性,更是大大增强了整个网络的可靠性、可用性。
其次是单设备的高可靠性,主要是指网络设备在系统设计和硬件架构上具备整体的高可靠能力,具备硬件的物理可靠性和系统部件的冗余能力,面对复杂环境能保持“不坏金身”,S12500产品在设计之初就旨在给客户提供数据中心级的高可靠保证,各个关键部件都支持1+1,甚至N+M的冗余。。另一方面,S12500系列交换机采用创新的交换矩阵与路由引擎相分离的多级交换架构,路由引擎1+1冗余,专用于系统控制和协议计算,交换矩阵N+1冗余,专用于数据转发。把交换机最重要的两个关键部分硬件分离,各司其职,避免相互影响,整个系统可靠性极高。
第三是设备的软件可靠特性,S12500通过BFD高可靠检测技术可以和VRRP/RIP/OSPF/ISIS/BGP等网络协议联动,支持IP FRR、MPLS TE FRR,均实现50ms的快速收敛;同时S12500还支持NSF技术、GR技术以及物理层和链路层高可靠性技术,使得S12500能为各种复杂业务提供保障。
最后是软件维护的高可靠性,主要是指设备在软件bug修复或者版本升级过程中,不会影响到设备的正常运行,在保证软件正常升级的同时,确保设备运行的稳定性,提高软件维护的易用性。在S12500的可靠性特性中,就是通过在线热补丁技术来提升软件维护的可靠程度,避免可靠性“短板”的出现。
H3C孙德和表示,一直以来,H3C对设备的可靠性都十分重视,并配备了专门的研发团队对产品的可靠性设计进行“攻关”,并取得了十分显著的成绩。例如在历次的思博伦测试中,H3C的各种网络设备在可靠性方面均有着突出的表现,就充分证明了这一点。
S12500:高可靠性的标杆
在上面我们从理论上讨论了提高网络设备可靠性的方法,而最能证明这些理论的,就是高端网络设备的实际表现。我们可以以主要针对数据中心核心应用的交换设备S12500为例,来实际感受一下网络的可靠性可以达到何种程度。
“100%吞吐量和零丢包,这是S12500在高可靠性方面最突出的表现。”H3C网络产品线副总裁孙德和介绍,在2009年6月H3C基于业内权威的思博伦平台对S12500进行的性能测试中,S12500极高的可靠性令所有人惊叹。“测试结果证明,S12500在二层单播、三层IPv4单播、三层IPv6单播、三层MPLS转发等多种情况下,均能实现100%吞吐量和零丢包,一举创造了业界核心交换机MPLS整机全线速转发的测试记录!”
我们知道,在数据中心等核心网络应用中,网络设备面临的数据压力非常之大,在这种工作状态下设备是否能够“顶住压力”,是维持网络正常状态的关键因素。S12500的高可靠性正是应对了这一需求。
值得一提的是,H3C在保障网络高可靠性的一个重要“杀手锏”——第二代智能弹性架构技术IRF2。这是是H3C在第一代智能弹性架构技术基础上持续优化和开发所推出的新一代技术。它可以通过虚拟化将多台互联的物理设备视为一台逻辑设备,为用户带来简化管理,简化网络业务、弹性扩展、1:N可靠、性能加倍提升和增值业务扩展等诸多好处。
除了在性能上带来的提升之外,IRF2的一项重要意义就在于网络可靠性的进一步提高。由于实现了1:N的冗余备份,IRF2可以在一台设备出现故障的时候,其它设备可以照常运行并迅速接管故障设备的功能。此时,域内路由协议不会随之出现中断;通过跨越设备的聚合,通信链路也得到了完善的保护;转发流量和大部分业务都不会出现中断。在流量中断丢包时长测试结果表明:当模拟一条链路中断时,采用了IRF2技术后,原来由路由收敛的链路变成了简单的聚合链路收敛,丢包时间从未采用IRF2技术时的十几秒乃至数十秒以上,缩短到了亚毫秒级,在实际应用中,即便是在进行对网络要求较高的视频流量传输时,也不会产生出过大的影响。
通过测试结果可以看出,S12500在提高网络设备平均无故障时间,和缩短平均修复时间两个方面,与其他同类型产品相比均略胜一筹。
H3C网络产品线副总裁孙德和表示,由于许多行业的数据中心提供的都是1年365天每天24小时的不间断服务,应该尽量消除设备与服务的临时中断,因此,对于网络设备的可靠性也必然有着更高要求,S12500的设计也正是瞄准了这一目标来完成的。事实上,S12500在可靠性方面的突出表现,也给整个网络设备领域树立了一个标杆,未来的网络设备可靠性参数势必将朝这一方向继续靠拢。
结束语
高可靠性并不仅仅是一个概念,它能够给用户带来实实在在的商业价值。对于用户来说,网络的稳定可用可以节省维护费用,提高企业的工作效率,节省企业的生产成本,增强企业竞争力,对用户在快速变化的环境中取得成功来说都非常关键。
随着H3C S12500的推出,网络设备的可靠性也上到了一个新的台阶。在万兆乃至100G网络正逐渐成为核心网络主流配置的趋势下,进一步提升网络的可靠性已是刻不容缓之事。相信在包括H3C在内的各方共同努力之下,网络的可靠性也将“水涨船高”,迈入一个新的层次。