看透可靠性看透容错

安全
沙地建楼,搞不好就会 “楼歪歪”。信息化也是如此,没有可靠性,业务也会没有保障。据有关机构统计,金融企业每次宕机损失平均为1000万美元,公司声誉等无形资产损失更是无法估量。系统可靠性,是信息化应用的前提。

沙地建楼,搞不好就会 “楼歪歪”。信息化也是如此,没有可靠性,业务也会没有保障。据有关机构统计,金融企业每次宕机损失平均为1000万美元,公司声誉等无形资产损失更是无法估量。系统可靠性,是信息化应用的前提。

为了追求系统可靠性,企业在信息化建设上投入大量的资金,从“两地三中心”,到系统冗余,数据备份,目的就是一个保障系统的安全可靠。对于关键业务应用而言,需要系统7×24×365不间断运行,对可靠性要求为99.999%,也就是全年累计的宕机时间不超过5分钟。

为了追求可靠性,双机冗余是最常采用的解决方案,也就是双机热备。通过采购2套系统,当一台机器出现故障的时候,另外一台机器接替其工作,确保系统不中断运行,两台机器之间依靠心跳线侦测进行判断和切换,接管服务。为了提高投资效率,两套系统之间尽可能采用互备、主从、并行等不同工作方式。尽管如此,采用双机热备,软件/硬件投资加倍,增加了用户负担。更为重要的是,采用心跳线侦测的方法,有时候会出现误报的问题,增加了新的不安全的因素。

从技术上看,双机热备的系统可靠性只有99.9%的水平,全年累计宕机时间不会超过8.8小时。要想实现99.999%,也就是5个9的水平,只有选用容错服务器。

容错服务器的代表厂商是美国的Stratus公司。从1980年Bill Fost创办Stratus至今,容错服务器已有30多年历史。期间容错服务器得到了很多投资人青睐,英特尔就是Stratus的第2大股东。

与双机热备方案相比,容错容易被用户忽略,价格高是其中很重要的原因。以往,容错服务器以往动辄上百万元,接近了小型机价格。高价位影响了容错的服务器的推广应用。但随着x86芯片技术不断进步,特别是多核技术的发展,容错服务器迎来新的发展机遇。以Stratus为首,容错开始抛弃专用芯片,采用x86通用芯片。如今Stratus入门级产品只需要10多万元。

单就硬件成本来说,容错还是高于双机热备。但从系统角度来考虑,特别是考虑软件的成本,容错服务器是一台机器,操作系统、数据库等软件只需要购买一套,可以大大节省软件的成本。也是因为这个原因,软件厂商从商业利益的角度出发,不会帮助Stratus等推广容错解决方案。软件厂商更愿意帮助服务器厂商推广双机热备的方案,追求双赢。容错只能是用户的选择。

影响系统可靠性的因素非常多,很多并不是双机可以解决的。以Windows应用为例,常有这样的用户体验,重启Windows有时候就可以解决问题。其中的原因就在于,无论是CPU、内存,还是I/O在计算或者传送数据过程中,都有可能受到电源波动、电磁等因素的干扰,产生错误的计算,影响系统可靠性。

只要是关键业务需要,无论计算量的大小,都需要高可靠性。以机场无人值守“Shuttle”火车为例,全部依靠系统控制,计算量不大,但要求具有很高可靠性,运行时间、开关门操控准确无误。稍有差池,就会酿成事故。在钢铁、电力、政府等很多应用领域,对于可靠性都具有非常高的要求,容不得半点差池。

在技术上,借助“锁步技术”,容错服务器可以***程度校正硬件故障。在容错服务器设计上,CPU、内存、I/O等,全部采用冗余设计,并通过锁步技术,对每个计算过程进行比对,准确无误才会进入下一个步骤。因此其系统的可靠性可以达到5个9的 水平。

在国际上,容错技术得到用户的广泛认可。但在国内,用户受厂商、集成商的影响比较大。从商业利益考虑,厂商往往不会主动推荐容错技术,影响了容错在国内的发展。根据数据统计,国内采用容错技术的用户尚没有国外的1/3。此外,关键业务应用市场规模大,但单机数量小。在出货量上没有办法与PC服务器相比,市场份额不大,在各种统计报表中,容错往往被忽略,客观上也影响力了用户对容错的关注。

4月23日,亚马逊云计算数据中心故障为用户提了个醒。对于可靠性是没有办法完全假手他人的,就连云计算也没有办法真正做到可以完全不关注底层基础设施。可靠性还是需要引起高度关注的话题。在众多高可靠性解决方案中,容错技术是可选方案之一。

 

【编辑推荐】

  1. 绿盟科技应邀出席甘肃省政府行业信息化安全建设高峰论坛
  2. 构建安全可靠的医院信息化系统
  3. 北信源终端体系在吉林区域客户信息化研讨会上引关注
  4. 观察:青岛国税局信息化的“鲜活绝招”
  5. 趋势科技为社保信息化建设一路“挡风遮雨”
责任编辑:佚名 来源: 51CTO.COM
相关推荐

2010-12-28 19:50:21

可靠性产品可靠性

2022-01-12 09:01:24

分布式系统容错服务

2010-12-28 20:16:24

2019-08-30 12:10:05

磁盘数据可靠性RAID

2013-11-04 17:04:22

容错可靠

2010-12-28 19:55:20

软件架构可靠性

2017-06-23 18:25:51

kafka数据可靠性

2024-05-09 08:04:23

RabbitMQ消息可靠性

2020-12-06 14:51:23

物联网可靠性IOT

2009-04-08 10:23:00

软交换网络可靠

2010-12-28 20:04:10

网络的可靠性网络解决方案可靠性

2009-06-24 17:10:52

2021-12-01 06:59:27

Go 对象内部

2022-05-21 23:46:16

自动驾驶雷达传感器

2010-04-29 17:13:25

2018-09-19 11:55:02

2013-04-24 10:31:44

公有云云安全

2010-03-02 18:16:45

WCF可靠性传输

2017-04-10 10:30:05

互联网

2018-05-07 10:20:38

Kafka存储机制
点赞
收藏

51CTO技术栈公众号