2018年，云宕机事故盘点-51CTO.COM

虽然云安全是业界最为关注的问题，云服务商在云安全上也一遍遍秀肌肉，但故障还是防不胜防。

1、6 月 17 日：微软 Azure 爱尔兰数据中心宕机

事故详情：2018 年 6 月 17 日至 18 日，因爱尔兰数据中心的恒温系统出现问题，微软 Azure 被高温影响导致存储和网络中断。

宕机时间：5 小时以上

2、6 月 27 日：阿里云故障

事故详情：2018 年 6 月 27 日 16:21 左右，阿里云出现重大技术故障，16:50 分开始陆续恢复，官方给出的故障时间为 30 分钟左右，恢复时间大概花费一小时。经过技术复盘，阿里给出的故障原因为工程师团队上线自动化运维新功能时，执行了一项变更验证操作，该操作在测试环境中未发生问题，上线后触发未知 bug。

补救措施：人工介入，定位并解决问题。

宕机时间：30 分钟，恢复时间花费一小时左右。

3、7 月 20 日：腾讯云云硬盘故障

事故详情：2018 年 8 月 5 日，北京清博数控科技有限公司（以下简称“前沿数控”）在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文，文中表明，2018 年 7 月 20 日，腾讯云云硬盘发生故障（腾讯云后期给出的事故原因说明），导致该公司存放的数据全部丢失，并且不能恢复，这是该创业公司近千万元级的平台数据，包括经过长期推广导流积累起来的精准注册用户以及内容数据。

补救措施：腾讯云表示，监控到异常后***时间向用户告知了故障状态，并立即组织文件系统专家并联合厂商技术专家尝试修复数据。但经过多方努力，最终仍有部分数据完整性校验失败。

4、7 月 24 日：腾讯云宕机

事故详情：2018 年 7 月 24 日，用户登录腾讯云时反复出现超时、退出等情况，即便更换运营商，结果也一样。随后，腾讯云发布通知称初步确定是运营商光缆中断，运营商已经找到断点，正在连线中，主要受影响的为广州区域部分用户。

补救措施：运营商***时间介入抢修。

宕机时间：宕机时间不明，恢复时间花费 30 至 40 分钟

5、Prime Day：亚马逊 AWS 故障

事故详情：Prime Day 是亚马逊在全球范围内启动的为期 36 小时的会员促销活动，活动刚开始，亚马逊网站及 App 就同时发生严重宕机，不光电子商务业务受损，亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解释是 AWS 管理控制台出现全球性问题。

宕机时间：故障持续了将近 6 小时。

6、9 月 4 日：微软 Azure 数据中心遭雷劈宕机

事故详情：9 月 4 日上午，微软 Azure 美国中南区数据中心附近发生雷击在内的恶劣天气，影响冷却系统的电压，导致多个 Azure 服务出现连接问题，客户难以访问存储在该区数据中心的资源。受影响的服务包括 Office36***ctive Directory、Visual Studio Online、Visual Studio Team Services 等。

补救措施：9 月 5 日上午，微软工程师已恢复数据中心的电力和大多数网络设备，其他服务也在陆续恢复中。

宕机时间：超过 24 小时

7、11 月 9 日：谷歌公有云下的 Kubernetes 服务（GKE）宕机

事故详情：11 月 9 日，谷歌公有云上提供的 Kubernetes 服务（GKE）节点池建置功能出现异常，维运人员无法透过 Cloud Console UI 建立新节点。

补救措施：谷歌派工程团队调查故障原因，并开始着手维修。谷歌表示，受影响的企业用户可以先改为使用 GCP 内建的 gcloud command，建置新 Kubernetes 节点。

宕机时间：接近 19 小时