年终盘点 | 2020云巨头们的宕机事件-宕机事故

本文转载自微信公众号「SDNLAB」。转载本文请联系SDNLAB公众号。

今年，疫情的爆发给云计算带来了一次非凡的考验——云计算不仅要提供正常运营业务的能力，还需要具有在负载激增的情况下保持可用性的能力。目前，云计算已被很多企业采用，但是，在此过程中也出现了许多问题。

以下是今年规模巨大的十大宕机事件，随着这些问题的出现和解决，云计算技术正面临着新的挑战和机遇。

1. 3月份，Microsoft Azure

3月，微软发生两次大规模宕机事件。

3月3日，微软位于美国东部的数据中心发生了服务中断，持续六小时，导致美国北部的客户无法使用Azure云服务。

[[360714]]

微软称，这次故障应归咎于冷却系统故障。发生故障的楼宇自动化控制导致气流减少，随后整个数据中心的温度达到峰值，影响了网络设备的性能，使得计算和存储都无法继续使用。

3月24日-26日，Azure Pipelines发生故障，这是DevOps团队使用的持续交付服务，接下来的几天，软件开发管道遇到了严重的延迟，开发人员受到的影响特别大。

微软证实，由于全球疫情爆发，需求激增，虚拟机容量受限使得设备重新映像的时间增加，导致可用代理的等待时间也随之增加。

2. 3月26日，Google Cloud Platform

3月26日，Google多个云服务出现无法访问的问题。Google用户发Twitter称，他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败;502代码则代表网关出现故障。

[[360715]]

Google最终将这次故障归咎于“基础设施组件”问题。据Downdetector称，美国东部沿海地区的Google客户受到的影响最大。

3. 4月10日，华为云

4 月 10 日，华为云出现大面积宕机，华为云登录、管理后台无法访问，部分公司业务无法正常维持。本次宕机持续约三小时。

[[360716]]

不少网友在微博反映，华为云登录、管理后台便开始无法访问，并出现了“服务器暂时过载或处于维护中，请稍后重试。”、“建立数据库连接时出错”等提示。华为云官方微博随后发布公告回应称：“检测到部分主机异常，目前故障基本修复，部分客户的业务正在配合恢复中。”

对此，有消息称这次宕机主要是由于北京的机房出现故障导致的，广州和上海的用户表示能够正常使用。

4. 4月21日，GitHub

微软旗下的源代码存储库GitHub在4月底发生了多次宕机。

4月21日，多个GitHub服务出现访问异常，持续了一个半小时。4月22日，服务再次出现中断，持续时间至少两小时。4月23日，多个GitHub服务也遇到了各种问题的影响，持续了近三小时。软件工程师经常使用的API请求、Webhooks等服务被标注为 "已降级"。

官方没有提供任何原因，也没有公布恢复过程的信息。虽然GitHub网站上更新了微软试图修复各种故障的情况，但并没有提供任何关于问题的细节，开发者们在Twitter上抨击微软缺乏透明度。

(5) 6月9日，IBM Cloud

6月9日，IBM Cloud 遭遇了重大宕机故障，平台上托管的多项服务也因此中断，其中就包括知名科技新闻聚合网站 Techmeme。本次宕机事件从下午2点30分左右开始，并快速蔓延至全球。

IBM Cloud页面也在故障发生期间短暂关闭，然后在下午6:30之后报告称一系列问题已经得以解决。

IBM网站解释到，INM网络运营团队调整了路由策略，处理了第三方提供商引入的问题，这次故障也得以解决。

(6) 8月24日，Zoom

8月24日，Zoom发生了部分中断，导致用户无法访问其离线会议和在线视频会议，本次中断持续了3小时。Zoom并未解释造成中断的原因，他只是在状态页面上说找到并解决了问题。

Zoom现在每天约有1.15亿活跃用户，该公司的服务可能已成为2020年在家工作的关键词。

(7) 9月28日，Microsoft 365和Azure

9月29日，Microsoft Office 365办公软件和Azure云产品出现故障，导致部分用户服务中断数小时。

[[360717]]

微软表示，故障涉及Outlook电邮服务和Teams办公协作工具的部分用户，其中Teams具备聊天和视频会议功能，在新冠疫情期间其用户增长迅速。微软表示，一些用户无法登录这些服务，但已经登录上去的不受影响。

当天，Azure云计算用户也遭遇了与Office365套件类似的问题。Azure是微软的大规模云计算系统，许多企业都依靠其存储和分析数据。

(8) 10月7日，Microsoft Office 365

10月7日，Microsoft更新了其网络基础结构，随后，Microsoft Teams，Outlook，SharePoint Online，OneDrive for Business和Outlook.com的功能均下降。

[[360718]]

当天下午2：48，Twitter上的Microsoft 365官方号确认中断。微软随后表示，网络基础结构的最新更新对Microsoft 365服务产生了影响，目前环境正在恢复更新。

(9) 11月25日，AWS

11月25日，亚马逊云服务出现中断，大量网站和服务受到影响。本次宕机持续约5小时。

[[360719]]

AWS发布通知称，处理流媒体数据的Kinesis服务出现问题，大量网站受到影响，错误率上升。并且，宕机还影响了它向状态页发布更新的能力。

据了解，此次宕机导致亚马逊智能安全子公司Ring、Roku、软件开发商Autodesk纽约大都会运输署的地铁网站，论坛出版集团旗下的《芝加哥论坛报》和《巴尔的摩太阳报》等一些公司或机构的服务受到了影响，网站频频出现错误。

值得注意的是，AWS 的大客户苹果、Slack、Netflix 并没有受到宕机的影响，仍然运行正常。

(10) 12月14日，Google Cloud

12月14日晚间，Google服务器又一次全球宕机。这是近5个月来第3次全球宕机。

Google旗下的YouTube、Gmail、Google Drive、Google Search等服务出现死机，用户无法正常使用，全球多个国家及地区用户均受到影响。

Google随后发推文确认，由于内部存储配额问题，Google身份验证系统中断。宕机45分后问题得以解决，现在所有服务都已恢复。

互联网时代对系统的可靠性提出了更高的要求。关键系统往往要求每年的不可用时间不能超过53分钟，而以上事故很多都远远超过了故障预算。

未来，系统架构会越来越复杂，整体的数据和流量也会越来越大，有专家表示，快速响应和控制影响半径，是当前的互联网需要重视起来的两个实践方向。