2018杭州·云栖大会上,阿里云上演了一出好戏——12600种异常被现场观众随机挑选,化身一只“功夫猴子”在专有云数据中心里横冲直撞,进行“破坏”:模拟硬盘掉电、网络抖动、服务器宕机等,但系统和应用依然稳定运行。
“IT从业者***的未解之谜就是,为什么一块磁盘被写满加上网络堵塞,会引起关键应用服务中断的连锁反应?”阿里云专有云兼企业应用总经理马劲打趣说,“过去我们不具备全系统演练的条件,今天我们引入‘混沌工程’理念,在准生产环境中做高频异常注入来打磨专有云的可靠性。”
自去年云栖大会上现场演示拔服务器电源后,马劲就有了个“破坏之王”的名号。但“破坏”是为了让系统更稳定,过去一年,他和工程师们开启了一项“混沌工程”计划,构造超过12600种生产环境下可能出的异常组合,每一种都能对系统造成一定程度的破坏,诸如服务器宕机、计算资源耗尽、程序异常退出、误删除及网络抖动、IO hang等复杂问题,通过对这类问题构建“专有云免疫系统”,帮助客户提前排除80%的故障隐患。
或许是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了一个极端环境下的超级异常——核心ECS集群出现局部网络异常,同时另一台ECS计算资源饱和。“这类情况极易引发系统雪崩,一般情况下客户的服务就挂掉了,而且恢复时间很长,”马劲解释道,演示现场的专有云快速隔离及弹性伸缩服务发挥了作用,应用仅持续了几秒的抖动便恢复了正常。
“混沌工程”通常应用在工程领域,指在可控范围内实践一些可引发系统失效的实验。马劲表示,阿里云的“混沌工程”是在仿真的生产环境中进行可控的建设性破坏,对不符合预期的系统反馈不断优化,从而持续打磨,为客户提供稳定环境。
自2016年发布专有云解决方案以来,阿里云已助力数百家政府、金融、企业客户完成了数字化转型,包括海关总署、浙江政务服务网、中国联通、中信等大型政企客户,专有云提供超过60款云产品和服务,支持10-10000台单集群规模部署,可将计算延伸到更多边缘场景。今天的专有云正在开拓海外市场,并与英特尔成立产业联盟服务全球客户。