聊一聊SDS如何抗各种故障

存储 存储软件
为了满足存储系统两地三中心、多站点多活的需求,目前部分SDS产品的对象存储服务支持多站点多副本技术,数据三个副本同时存储在三个站点上,可以多站点同时访问,支持多活技术。

1 软件定义“抗造”

我们知道软件定义存储SDS有很多优势,比如:

  1. 软硬件分离,无硬件厂商锁定。
  2. 高扩展性,在线按需扩容,无需中断业务。
  3. 标准控制API接口,秒级操作,无缝对接其他系统。
  4. 标准数据访问接口,支持块、文件、对象存储等。
  5. 性能和容量可配置,满足当前和未来场景的需求。

除此之外,SDS还可以灵活定义可靠性、可用性,因此SDS特别抗造。

[[251150]]

我们先了解可靠性和可用性的含义,再对故障进行分类,***对比各种抗造技术,方便大家在做SDS选型和架构设计时进行“软件定义”。

2可靠性与可用性

可靠性(durability):表示数据是否丢失。比如硬盘发生介质故障,导致硬盘里面的数据丢失。

可用性(availability):表示数据是否可以访问。比如因为服务器掉电原因,导致暂时不能访问服务器硬盘中的数据。

3故障分类

总体分类为:硬件、软件、天灾、人祸。具体分类如下表所示。

其中硬盘发生故障非常频繁,下面云备份服务商blackblaze的硬盘年平均故障率统计,一共统计了82516块硬盘在2013年~2017年间的故障率。

在实际经验中,我们也会经常碰到服务器、机柜、交换机、站点的故障。那么多故障,我们需要不同的技术来应对,下面我们来看不同技术的优缺点。

4抗造技术

4.1 单机RAID

一般服务器上都会自带RAID卡,支持RAID1、10、5、6等。RAID技术通过数据冗余保证在1~N块硬盘故障时,数据不丢失,并且同时可以访问到数据。

比如RAID5支持同时坏1块硬盘,RAID6支持同时坏2块硬盘。

但是RAID的缺点是:

●仅支持单机。假如服务器宕机,RAID技术也无力回天。

●数据恢复速度慢,受限于单个硬盘的写速度,导致RAID组要恢复健康状态需要10个小时以上,特别在越来越大的硬盘容量的情况下。在数据恢复过程中,容易发生二次故障,导致数据丢失。

● RAID组所包含的硬盘数量太少,不能并行发挥所有硬盘的性能。

●需要单独的Spare热备盘,平时会造成资源浪费。

4.2 多机网络多副本

因为单机RAID的缺点,随着万兆以太网的普及,多机网络多副本技术随之产生,广泛被各种分布式存储软件使用。

多机网络多副本的优点是恢复速度快,并行发挥所有硬盘的性能,另外当单台服务器宕机了,不影响数据的可用性和可靠性,其他服务器继续提供服务。缺点是存储容量利用率低,可用容量和裸容量比例是1:3。

4.3 多机网络EC纠删码

为了解决多副本的存储容量利用率低的问题,大家开发了网络EC纠删码,也被广泛应用在分布式存储上,比如HDFS的EC纠删码。

它优点是可用容量和裸容量比例是1:1.3~1.5,大文件写吞吐量高,缺点是写操作延迟高。

4.4 机架柜列故障域隔离

SDS还可以定义数据分布策略,这样可以防止机架柜列掉电造成的影响。 

假如多副本分布在不同的机架上,则任一机架掉电,不影响数据可靠性和可用性。

假如多副本分布在不同的柜列上,则任一柜列掉电,不影响数据可靠性和可用性。

4.5 网络冗余

SDS通过网口链路聚合和交换机堆叠技术,提供网络冗余度,避免单个网口和交换机的故障造成数据不可访问的影响,提高数据可用性。

4.6 多站点多副本

为了满足存储系统两地三中心、多站点多活的需求,目前部分SDS产品的对象存储服务支持多站点多副本技术,数据三个副本同时存储在三个站点上,可以多站点同时访问,支持多活技术。当任意一个站点发生故障时,不影响其他站点的数据访问和写入。

4.7 多站点EC纠删码

多站点EC纠删码技术可以提高存储容量利用率,支持在1个站点故障的情况下,数据能够正常访问和读写,适用于冷数据和归档场景。

4.8 Cloud Sync(云备份)

不是所有场景都有条件建设多站点,因此SDS的Cloud Sync(云备份)功能应运而生,可以把数据异步复制到公有云和异地私有云上,避免额外建设,降低成本。当本地存储集群发生故障时,数据可以快速恢复和访问。


[[251157]]

具体应用场景如下所示:

4.9 智能故障自愈

SDS可以采用先进的数据分布算法,在出现硬盘故障和服务器故障时可以进行数据迁移和重平衡,故障硬盘会被踢出存储集群,不再工作。数据迁移完成后,SDS存储集群恢复正常,无须人工干预。因当出现硬盘故障时,可以不用处理,后期再批量更换硬盘,减少运维成本。

4.10 对象存储超时删除

对于特定场景,数据保存一定周期之后需要删除,以便释放空间,SDS的对象存储服务具有超时删除功能。下图是10天后删除数据的设置。

4.11 监控告警平台

通过监控告警平台,可以把不同级别的告警信息通过邮件和短信发送给管理员,让管理员快速知晓存储集群的健康状态,并采取适当的行动。

5 技术对比

下表对比了不同技术的抗造指标,我们要根据实际场景进行选择和组合,权衡数据可靠性和成本。

责任编辑:武晓燕 来源: UMCloud优云数智
相关推荐

2019-02-13 14:15:59

Linux版本Fedora

2020-01-03 11:04:54

安全测试渗透

2019-01-17 10:34:12

故障CPU散热

2017-12-27 08:34:36

软件存储SDS

2020-12-29 05:33:40

TomcatSpringBoot代码

2018-05-16 08:58:04

用户画像存储

2023-03-05 18:40:39

iptables防火墙软件

2023-09-22 17:36:37

2021-01-28 22:31:33

分组密码算法

2020-05-22 08:16:07

PONGPONXG-PON

2018-06-07 13:17:12

契约测试单元测试API测试

2019-09-19 16:59:04

数据结构设计数据库

2023-05-15 08:38:58

模板方法模式

2021-01-29 08:32:21

数据结构数组

2022-08-08 08:25:21

Javajar 文件

2021-08-04 09:32:05

Typescript 技巧Partial

2018-11-29 09:13:47

CPU中断控制器

2021-02-06 08:34:49

函数memoize文档

2023-07-06 13:56:14

微软Skype

2022-11-01 08:46:20

责任链模式对象
点赞
收藏

51CTO技术栈公众号