网络系统测试:单点故障情况下系统自动恢复时间

网络 布线接入
网络系统中的协议配置对系统的稳定性、负荷和恢复时间有重大影响。在测试中可根据不同网络的要求,取得一个性价比最高的平衡。

网络系统在出现单点故障情况下可快速恢复是高可靠网络设计的重点。恢复时间的要求在各类行业和各网络层有差异。目前,网络系统平均恢复时间低于500ms已经逐步成为主流要求。

与网络切换相关的各种组网模型故障模拟主要包括:链路故障、节点设备故障、单板故障、节点设备主备倒换、主备设备倒换、设备升级等。各类故障还需进一步细分,例如节点设备故障包含:设备命令行执行软件重启,设备断电、设备上电、主备控板全部拔出/插入等等。

为精确计算各类故障导致的网络中断/恢复时间,组网如图1所示,测试方法如下:

网络系统测试:单点故障情况下系统自动恢复时间

图1 网络系统恢复时间测试示意

1、基于网络测试环境,接入测试仪器,将流量发生器端到端接入网络系统。仪器端口分别连接网络系统的接入层和出口,以保证被测流量路径贯通整个网络。

2、 在测试仪器的Port A端口设定速率稳定的流量,目的地址为Port B端口。在Port B端口设定速率稳定的流量,目的地址为Port A端口。由于上下行路径迁移时,上下行的路由等各类协议的热备表项不同,涉及的协议收敛也可能不同,所以务必设定双向流量,以检测上行和下行流量路径的恢复时间。

3、 确保设定的上下行流量路径通过需要模拟的故障点节点,避免测试无效。

4、 启动流量发送与接收,开始统计发送的流量和接收的流量。

5、 模拟节点故障,网络系统自动检测并恢复。

6、 停止发送流量。根据发送和接收的流量,计算得出系统流量路径恢复时间。

公式为:Time=(发送报文数量-接收报文数量)/报文发送速率(pps)。

注意:报文发送速率以M/G为单位时,计算需考虑以太网报文的前导码和帧间隙,公式为:Time=(发送报文数量-接收报文数量)*( 报文字节*8+8*8+96)/报文发送速率(M/G)。通过计算得出上下行流量路径的恢复时间。

测试时还需注意以下细节:

1、故障模拟操作方式要考虑全面。例如用命令行shutdown端口和拔掉网线操作导致的测试结果往往会不同;光纤的单通与通常的链路down表现也会不同等。

2、 不仅要测试主设备/链路切换到备用,还要测试主设备/链路恢复正常后,网络系统的表现。

3、每项测试需至少测试三次得到平均值。并对得到尖峰和低谷进行分析,需要时重复更多测试以获取稳定数据。

4、 始终关注测试流量路径是否经过故障节点,是否按照预期切换,保证测试结果的准确性。

4 验证HA(High Availability)特性的组合部署功能

网络系统中的协议配置对系统的稳定性、负荷和恢复时间有重大影响。例如对OSPF的hello time设置过小,会加重网络中控制平面处理负担,并容易产生路由振荡。但是过大也会导致故障时系统恢复时间无法达到要求。因此在测试中可根据不同网络的要求,取得一个性价比最高的平衡。

当各类为保证网络系统高可靠运行的协议在一个网络系统中应用时,就使这种组合更加复杂,这些特性包括链路聚合、MSTP、RRPP、BFD、GR、VRRP、ECMP、IRF等。

因此,测试不仅仅需要验证这些特性是否在发挥作用,同时测试过程也是一个网络参数调优过程。在测试中通过不断调整协议配置参数,以获取网络系统可靠性最佳配置。这个调优过程既要计算获取网络故障恢复时间,又要监控网络系统各个节点的运行状况。例如在满足网络恢复时间要求基础上,监控参数配置会影响的CPU占用率、内存是否正常,Console是否能响应,转发是否正常,OSPF收敛及路由变化等等,综合得出结论。

网络系统的可靠性测试是一种灰盒测试,不仅仅要进行端到端的测试,还要深入关注到各个节点的运行状态,流量和协议控制层面的脉络运行状态。要做好各类故障的分类分析,充分考虑客户环境的复杂性和客户行为,对网络系统的高可靠相关特性深入理解,在验证中优化配置参数,得到最优最可靠的网络系统。

责任编辑:佚名 来源: 新浪
相关推荐

2010-08-25 13:46:38

单点故障

2023-08-24 07:34:28

2015-09-23 09:28:24

2015-09-08 15:37:32

虚拟化虚拟基础设施

2015-09-08 10:30:48

单点故障风险评估虚拟化

2024-10-15 10:32:30

2010-12-28 20:21:26

2020-04-02 11:16:28

Linux进程高并发

2023-03-27 13:00:13

Javascript前端

2014-04-11 09:22:17

MySQL双主架构单点故障

2011-08-19 15:59:40

2011-08-18 13:58:08

2017-11-13 08:43:57

确保恢复最新

2010-04-30 17:34:26

Unix网络系统

2011-03-18 10:03:56

MFSMooseFS高可用

2020-09-18 06:36:21

Linuxkernel高并发

2010-06-30 10:55:13

SQL Server日

2012-08-10 13:34:25

深信服应用交付负载均衡

2014-04-11 13:47:14

双主架构MySQL

2017-08-04 08:48:33

公有云云存储故障
点赞
收藏

51CTO技术栈公众号