阿里云回应大规模故障:运维操作失误 将认真改进

新闻 云计算
6月28日早间消息,今日凌晨,阿里云官方微博针对昨日出现的大规模故障问题作出官方回应。声明称,在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

6月28日早间消息,今日凌晨,阿里云官方微博针对昨日出现的大规模故障问题作出官方回应。声明称,在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

  声明复盘故障原因,称系工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。

  6月27日下午,众多网友在微博反馈,称阿里云控制台访问出现故障,后台登录不上,包括图片服务也已经挂掉。阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能也出现访问异常现象,部分用户反馈称手机端和PC端均无法访问。随后阿里云在官网发布公告称,部分管控功能出现访问异常,受影响业务正逐渐恢复正常。

  以下为阿里云故障官方回复原文:

  6月27日阿里云故障说明

  6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大员吐槽。故障于北京时间2018年6月27日,16:21左右开始,16:50分开始陆续恢复。

  经过紧急技术复盘,故障原因如下:

  当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。

  受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。

  阿里云计算有限公司

  2018年6月27日
 

 

责任编辑:张燕妮 来源: 新浪科技
相关推荐

2018-06-29 10:36:29

阿里云互联网故障

2015-06-11 13:24:27

集群运维

2015-08-31 05:51:37

集群运维私有云

2016-04-15 00:43:13

2021-09-01 09:19:11

产品用户体验提醒

2021-09-03 08:44:02

运维安全身份认证堡垒机

2018-09-30 15:37:07

数据库MySQLMyCat

2022-06-09 13:45:18

vivoK8S集群Kubernetes

2018-07-26 05:33:26

数据中心运维管理宕机

2021-05-12 09:15:48

Facebook 开发技术

2020-08-06 14:36:24

Elasticsear集群运维

2014-06-20 10:34:20

阿里云带宽数据中心

2010-04-02 09:30:27

Oracle数据库

2012-08-31 10:12:40

阿里云云计算

2014-02-12 09:39:09

2014-07-15 13:41:41

阿里云可信云

2019-12-18 10:48:52

运维架构技术

2014-02-12 09:32:02

2013-08-04 21:44:48

运维故障故障排查云计算

2016-12-14 11:44:25

阿里Docker大数据
点赞
收藏

51CTO技术栈公众号