年中盘点：2020年10大云故障-51CTO.COM

仅仅几个月前，新冠病毒就以人们无法预测的方式对云提供商进行了一轮测试。大多数情况下，云计算产业已经能够在全球突然开始极大地依赖云服务以继续工作、学习和娱乐的时候、保持云服务的可用性和稳定性。

在面对前所未有的压力测试时，公有云已经被证明具有极强的弹性，但今年上半年也还是有一些例外。虽然今年到目前为止，只有少数几起中断故障是由于新冠病毒让云服务使用激增所导致的，但还有一些是由于某些常见的故障引发的，即使是在特殊时期，这些故障在某些程度上也是不可避免的。

下面就让我们来看看今年到目前为止给用户带来影响的10大云故障。

1、Twitter，2月7日

今年2月Twitter发生部分服务中断，导致一些用户无法发送推文。

“推文无法发送，我们正在努力修复，”社交媒体巨头Twitter的产品经理Patrick Traughber发推文表示。

根据Downdetector.com的报道，美国东部时间下午5点之前，有关服务中断的投诉激增至12000起，主要发生在美国和欧洲。

Twitter支持团队在推文中说：“我们对这次服务中断感到抱歉，我们会在恢复正常之后通知您。”

Twitter很快发现，这次服务中断的罪魁祸首，是最近的一次更新中包含的错误代码，随后取消了这次更新。美国东部时间下午5:07之前，Twitter支持团队向用户发送通知称：“您可以继续使用Twitter了，问题已经得到解决!感谢您继续使用。”

2、微软Azure，3月3日

从美国东部时间上午9:30开始，微软位于美国东部数据中心发生了6个小时的服务中断，从而导致美国北部的一些客户无法使用Azure云服务。

几天后，微软称这次故障应归咎于冷却系统故障。微软解释说，楼宇自动化控制功能故障导致气流减少，随后整个数据中心达到峰值，从而影响了网络设备的性能，使计算和存储实例无法使用。

微软最终重置了冷却系统控制器，一旦温度降下来，工程师就可以关闭电源，重启硬件，恢复服务。

3、微软Teams，3月16日

在新冠病毒大爆发之际，微软Teams平台涌入了大量新用户，导致该服务在欧洲地区出现了持续2个小时的宕机，此次事件也突显了Teams服务的支持能力问题。

微软在推特上称，截至美国东部时间上午4:50，“微软一直在调查Teams中与通信相关的功能问题”。有报道称，对欧洲用户来说，Teams应用程序套件已经完全无法使用。

微软在一份声明中表示：“我们已经采取措施解决部分客户可能遇到的问题，工程团队将继续积极监控性能和使用情况。”

而就在两周前，微软刚刚承诺向目前尚无Teams许可的企业和教育机构免费提供6个月的Office 365 E1订阅服务。

4、微软Azure，3月24日至26日

今年3月微软证实，新冠病毒大爆发给微软多项云服务带来极大的压力，这导致了欧洲地区发生一系列宕机。

这次故障给开发者带来的影响特别大，因为3月24日首先“阵亡”的是Azure Pipelines，DevOps团队使用的持续交付服务。接下来的几天里，微软的软件开发管道发生严重的延迟。

微软后来解释说：“此次事件是由全球新冠病毒大爆发引起虚拟机容量受限所导致的，使得设备重新映像的时间增加，可用代理的等待时间也随之增加。”

当周晚些时候，微软接受了关于没能及时解决故障的指责。

微软工程总监Chad Kimes说：“第一天影响最严重的时候，我们有大约5个小时都没有意识到故障的发生，这比我们设定的10分钟要糟糕得多。”

5、Google Cloud Platform，3月26日

谷歌用户从3月26日上午11点开始报告有多项云服务无法访问的问题。

用户发推特称，他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败;502代码则代表网关出现故障。

Google最终将这次故障归咎于“基础设施组件”问题。

据Downdetector称，美国东部沿海地区的谷歌客户受到影响似乎最大。

6、Zoom，4月3日

新冠病毒大流行迫使全球开始转向远程办公和远程学习模式，Zoom作为全球最重要的视频服务提供商之一，遭遇了平台需求的激增。

这种压力似乎导致了4月3日的服务中断，使得美国东海岸和部分欧洲地区的Zoom用户对于无法使用Zoom服务感到震惊。根据DownDetector.com的报道，美国加利福尼亚州、佛罗里达州、中西部和马来西亚的部分地区都出现了的宕机。

登录尝试时报告的错误消息表明Zoom Web客户端出现了问题，Zoom的状态页面称正在维护中。

Zoom在自己的开发者论坛页面上表示：“在这个艰难的时期，我们看到人们对Zoom服务的需求出现激增。为了继续为客户和开发者提供卓越的服务，我们可能会迅速实施一些变更措施。”

此前Zoom一直在为教育机构免费提供视频服务，为企业和消费者提供40分钟的免费视频会议，这导致3月日活用户数量同比增长了151%。

7、Google Cloud Platform，4月8日

这次涉及Google Cloud身份和访问管理(IAM)API的故障，导致用户被锁定在Google Gmail帐户之外，并影响了其他基于Google Cloud的主流服务。

这次故障从美国东部时间上午10:35开始，持续了不到90分钟，导致多个Google服务中断，包括App Engine、Cloud Functions、BigQuery及其核心Compute Engine IaaS。

Google的姊妹公司Nest不得不向客户解释为什么他们的安全摄像机暂时无法使用。而作为Google Cloud的重要客户，Snapchat完全瘫痪了一个多小时。

8、GitHub，4月21日

微软旗下的源代码存储库GitHub在4月底发生了多次宕机。

首先是在4月21日，GitHub苦苦挣扎了一个多小时;第二天，GitHub又发生了两次背靠背的宕机，再次让依赖GitHub平台的开发者工作停滞，然后又一次影响了多个GitHub服务一个多小时;第二天又是如此。

软件工程师在日常工作中所依赖的Git Operations、API请求、拉取请求等功能都出现了级。随着整周持续不断的宕机，开发者们开始在Twitter抨击微软缺乏透明度。

9、Adobe Creative Cloud，5月28日

今年5月，Adobe云平台(包括Photoshop、InDesign和Premier Pro等备受欢迎的产品)发生宕机一整天的时间，让创意专业人士的工作完全停滞。

Adobe Creative Cloud的故障在数字设计社区引发了有关云服务缺点的讨论，很多人在Twitter上开始思考，他们是否应该倾向于这些产品的本地化版本。

从美国东部时间上午9点开始，Adobe客户报告称他们无法登录Adobe Creative Cloud平台并使用相关服务，有客户称，他们因为无法登陆帐户而无法联系到支持人员。

问题曝光的7个多小时之后，Adobe在推特上发布了该问题的解决方法，但未详细说明根本原因。

10、IBM Cloud，6月9日

IBM将这次导致很多客户(包括一些备受欢迎的网站)宕机的云故障归咎于第三方网络故障。IBM的一家商业合作伙伴公司首席执行官称，客户无法访问IBM的环境、状态屏幕和控制台，“根本不知道发生了什么”。

他说：“这带来了广泛的影响，整个环境都停滞了。”

IBM Cloud状态页面也在故障发生期间短暂关闭，然后在下午6:30之后报告称一系列问题已经得以解决。

IBM状态页面解释说：“网络运营团队调整了路由策略，解决了第三方提供商引入的问题，从而解决了这次故障。”