仅仅几个月前,新冠病毒就以人们无法预测的方式对云提供商进行了一轮测试。大多数情况下,云计算产业已经能够在全球突然开始极大地依赖云服务以继续工作、学习和娱乐的时候、保持云服务的可用性和稳定性。
在面对前所未有的压力测试时,公有云已经被证明具有极强的弹性,但今年上半年也还是有一些例外。虽然今年到目前为止,只有少数几起中断故障是由于新冠病毒让云服务使用激增所导致的,但还有一些是由于某些常见的故障引发的,即使是在特殊时期,这些故障在某些程度上也是不可避免的。
下面就让我们来看看今年到目前为止给用户带来影响的10大云故障。
1、Twitter,2月7日
今年2月Twitter发生部分服务中断,导致一些用户无法发送推文。
“推文无法发送,我们正在努力修复,”社交媒体巨头Twitter的产品经理Patrick Traughber发推文表示。
根据Downdetector.com的报道,美国东部时间下午5点之前,有关服务中断的投诉激增至12000起,主要发生在美国和欧洲。
Twitter支持团队在推文中说:“我们对这次服务中断感到抱歉,我们会在恢复正常之后通知您。”
Twitter很快发现,这次服务中断的罪魁祸首,是最近的一次更新中包含的错误代码,随后取消了这次更新。美国东部时间下午5:07之前,Twitter支持团队向用户发送通知称:“您可以继续使用Twitter了,问题已经得到解决!感谢您继续使用。”
2、微软Azure,3月3日
从美国东部时间上午9:30开始,微软位于美国东部数据中心发生了6个小时的服务中断,从而导致美国北部的一些客户无法使用Azure云服务。
几天后,微软称这次故障应归咎于冷却系统故障。微软解释说,楼宇自动化控制功能故障导致气流减少,随后整个数据中心达到峰值,从而影响了网络设备的性能,使计算和存储实例无法使用。
微软最终重置了冷却系统控制器,一旦温度降下来,工程师就可以关闭电源,重启硬件,恢复服务。
3、微软Teams,3月16日
在新冠病毒大爆发之际,微软Teams平台涌入了大量新用户,导致该服务在欧洲地区出现了持续2个小时的宕机,此次事件也突显了Teams服务的支持能力问题。
微软在推特上称,截至美国东部时间上午4:50,“微软一直在调查Teams中与通信相关的功能问题”。有报道称,对欧洲用户来说,Teams应用程序套件已经完全无法使用。
微软在一份声明中表示:“我们已经采取措施解决部分客户可能遇到的问题,工程团队将继续积极监控性能和使用情况。”
而就在两周前,微软刚刚承诺向目前尚无Teams许可的企业和教育机构免费提供6个月的Office 365 E1订阅服务。
4、微软Azure,3月24日至26日
今年3月微软证实,新冠病毒大爆发给微软多项云服务带来极大的压力,这导致了欧洲地区发生一系列宕机。
这次故障给开发者带来的影响特别大,因为3月24日首先“阵亡”的是Azure Pipelines,DevOps团队使用的持续交付服务。接下来的几天里,微软的软件开发管道发生严重的延迟。
微软后来解释说:“此次事件是由全球新冠病毒大爆发引起虚拟机容量受限所导致的,使得设备重新映像的时间增加,可用代理的等待时间也随之增加。”
当周晚些时候,微软接受了关于没能及时解决故障的指责。
微软工程总监Chad Kimes说:“第一天影响最严重的时候,我们有大约5个小时都没有意识到故障的发生,这比我们设定的10分钟要糟糕得多。”
5、Google Cloud Platform,3月26日
谷歌用户从3月26日上午11点开始报告有多项云服务无法访问的问题。
用户发推特称,他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败;502代码则代表网关出现故障。
Google最终将这次故障归咎于“基础设施组件”问题。
据Downdetector称,美国东部沿海地区的谷歌客户受到影响似乎最大。
6、Zoom,4月3日
新冠病毒大流行迫使全球开始转向远程办公和远程学习模式,Zoom作为全球最重要的视频服务提供商之一,遭遇了平台需求的激增。
这种压力似乎导致了4月3日的服务中断,使得美国东海岸和部分欧洲地区的Zoom用户对于无法使用Zoom服务感到震惊。根据DownDetector.com的报道,美国加利福尼亚州、佛罗里达州、中西部和马来西亚的部分地区都出现了的宕机。
登录尝试时报告的错误消息表明Zoom Web客户端出现了问题,Zoom的状态页面称正在维护中。
Zoom在自己的开发者论坛页面上表示:“在这个艰难的时期,我们看到人们对Zoom服务的需求出现激增。为了继续为客户和开发者提供卓越的服务,我们可能会迅速实施一些变更措施。”
此前Zoom一直在为教育机构免费提供视频服务,为企业和消费者提供40分钟的免费视频会议,这导致3月日活用户数量同比增长了151%。
7、Google Cloud Platform,4月8日
这次涉及Google Cloud身份和访问管理(IAM)API的故障,导致用户被锁定在Google Gmail帐户之外,并影响了其他基于Google Cloud的主流服务。
这次故障从美国东部时间上午10:35开始,持续了不到90分钟,导致多个Google服务中断,包括App Engine、Cloud Functions、BigQuery及其核心Compute Engine IaaS。
Google的姊妹公司Nest不得不向客户解释为什么他们的安全摄像机暂时无法使用。而作为Google Cloud的重要客户,Snapchat完全瘫痪了一个多小时。
8、GitHub,4月21日
微软旗下的源代码存储库GitHub在4月底发生了多次宕机。
首先是在4月21日,GitHub苦苦挣扎了一个多小时;第二天,GitHub又发生了两次背靠背的宕机,再次让依赖GitHub平台的开发者工作停滞,然后又一次影响了多个GitHub服务一个多小时;第二天又是如此。
软件工程师在日常工作中所依赖的Git Operations、API请求、拉取请求等功能都出现了级。随着整周持续不断的宕机,开发者们开始在Twitter抨击微软缺乏透明度。
9、Adobe Creative Cloud,5月28日
今年5月,Adobe云平台(包括Photoshop、InDesign和Premier Pro等备受欢迎的产品)发生宕机一整天的时间,让创意专业人士的工作完全停滞。
Adobe Creative Cloud的故障在数字设计社区引发了有关云服务缺点的讨论,很多人在Twitter上开始思考,他们是否应该倾向于这些产品的本地化版本。
从美国东部时间上午9点开始,Adobe客户报告称他们无法登录Adobe Creative Cloud平台并使用相关服务,有客户称,他们因为无法登陆帐户而无法联系到支持人员。
问题曝光的7个多小时之后,Adobe在推特上发布了该问题的解决方法,但未详细说明根本原因。
10、IBM Cloud,6月9日
IBM将这次导致很多客户(包括一些备受欢迎的网站)宕机的云故障归咎于第三方网络故障。IBM的一家商业合作伙伴公司首席执行官称,客户无法访问IBM的环境、状态屏幕和控制台,“根本不知道发生了什么”。
他说:“这带来了广泛的影响,整个环境都停滞了。”
IBM Cloud状态页面也在故障发生期间短暂关闭,然后在下午6:30之后报告称一系列问题已经得以解决。
IBM状态页面解释说:“网络运营团队调整了路由策略,解决了第三方提供商引入的问题,从而解决了这次故障。”