阿里云引入“混沌工程”提升稳定性 专有云遭“随机破坏”后依然正常运行

云计算
2018杭州·云栖大会上,阿里云上演了一出好戏——12600种异常被现场观众随机挑选,化身一只“功夫猴子”在专有云数据中心里横冲直撞,进行“破坏”:模拟硬盘掉电、网络抖动、服务器宕机等,但系统和应用依然稳定运行。

2018杭州·云栖大会上,阿里云上演了一出好戏——12600种异常被现场观众随机挑选,化身一只“功夫猴子”在专有云数据中心里横冲直撞,进行“破坏”:模拟硬盘掉电、网络抖动、服务器宕机等,但系统和应用依然稳定运行。
“IT从业者***的未解之谜就是,为什么一块磁盘被写满加上网络堵塞,会引起关键应用服务中断的连锁反应?”阿里云专有云兼企业应用总经理马劲打趣说,“过去我们不具备全系统演练的条件,今天我们引入‘混沌工程’理念,在准生产环境中做高频异常注入来打磨专有云的可靠性。”
自去年云栖大会上现场演示拔服务器电源后,马劲就有了个“破坏之王”的名号。但“破坏”是为了让系统更稳定,过去一年,他和工程师们开启了一项“混沌工程”计划,构造超过12600种生产环境下可能出的异常组合,每一种都能对系统造成一定程度的破坏,诸如服务器宕机、计算资源耗尽、程序异常退出、误删除及网络抖动、IO hang等复杂问题,通过对这类问题构建“专有云免疫系统”,帮助客户提前排除80%的故障隐患。

阿里云


或许是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了一个极端环境下的超级异常——核心ECS集群出现局部网络异常,同时另一台ECS计算资源饱和。“这类情况极易引发系统雪崩,一般情况下客户的服务就挂掉了,而且恢复时间很长,”马劲解释道,演示现场的专有云快速隔离及弹性伸缩服务发挥了作用,应用仅持续了几秒的抖动便恢复了正常。
“混沌工程”通常应用在工程领域,指在可控范围内实践一些可引发系统失效的实验。马劲表示,阿里云的“混沌工程”是在仿真的生产环境中进行可控的建设性破坏,对不符合预期的系统反馈不断优化,从而持续打磨,为客户提供稳定环境。

[[244366]]


自2016年发布专有云解决方案以来,阿里云已助力数百家政府、金融、企业客户完成了数字化转型,包括海关总署、浙江政务服务网、中国联通、中信等大型政企客户,专有云提供超过60款云产品和服务,支持10-10000台单集群规模部署,可将计算延伸到更多边缘场景。今天的专有云正在开拓海外市场,并与英特尔成立产业联盟服务全球客户。

 

责任编辑:赵立京 来源: 51CTO
相关推荐

2020-02-27 08:00:41

混沌工程系统失控条件

2013-05-23 16:00:20

负载均衡网络优化网络升级

2023-06-30 08:43:36

2023-11-26 17:51:00

阿里云故障本质

2010-02-09 09:34:00

Windows 7补丁系统稳定

2020-07-28 08:07:14

ElasticSear

2024-02-05 13:06:00

云计算

2018-11-08 15:44:10

UCloud云硬盘IO

2023-08-22 14:29:05

大前端

2023-10-09 07:24:58

数据稳定性治理数据处理

2022-05-05 11:04:35

技术高可用系统

2023-04-26 18:36:13

2014-05-19 11:58:21

世纪互联微软云服务

2011-04-27 21:54:45

2015-12-01 17:54:25

云呼叫中心

2020-04-29 10:51:33

云原生云计算微服务

2011-07-28 16:17:10

2018-06-27 16:54:11

红帽Linux 6.10企业

2010-08-11 09:08:51

KDE 4.5.0

2021-01-18 09:43:58

Node.js前端服务端
点赞
收藏

51CTO技术栈公众号