本文转载自微信公众号「SDNLAB」。转载本文请联系SDNLAB公众号。
今年,疫情的爆发给云计算带来了一次非凡的考验——云计算不仅要提供正常运营业务的能力,还需要具有在负载激增的情况下保持可用性的能力。目前,云计算已被很多企业采用,但是,在此过程中也出现了许多问题。
以下是今年规模巨大的十大宕机事件,随着这些问题的出现和解决,云计算技术正面临着新的挑战和机遇。
1. 3月份,Microsoft Azure
3月,微软发生两次大规模宕机事件。
3月3日,微软位于美国东部的数据中心发生了服务中断,持续六小时,导致美国北部的客户无法使用Azure云服务。
微软称,这次故障应归咎于冷却系统故障。发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度达到峰值,影响了网络设备的性能,使得计算和存储都无法继续使用。
3月24日-26日,Azure Pipelines发生故障,这是DevOps团队使用的持续交付服务,接下来的几天,软件开发管道遇到了严重的延迟,开发人员受到的影响特别大。
微软证实,由于全球疫情爆发,需求激增,虚拟机容量受限使得设备重新映像的时间增加,导致可用代理的等待时间也随之增加。
2. 3月26日,Google Cloud Platform
3月26日,Google多个云服务出现无法访问的问题。Google用户发Twitter称,他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败;502代码则代表网关出现故障。
Google最终将这次故障归咎于“基础设施组件”问题。据Downdetector称,美国东部沿海地区的Google客户受到的影响最大。
3. 4月10日,华为云
4 月 10 日,华为云出现大面积宕机,华为云登录、管理后台无法访问,部分公司业务无法正常维持。本次宕机持续约三小时。
不少网友在微博反映,华为云登录、管理后台便开始无法访问,并出现了“服务器暂时过载或处于维护中,请稍后重试。”、“建立数据库连接时出错”等提示。华为云官方微博随后发布公告回应称:“检测到部分主机异常,目前故障基本修复,部分客户的业务正在配合恢复中。”
对此,有消息称这次宕机主要是由于北京的机房出现故障导致的,广州和上海的用户表示能够正常使用。
4. 4月21日,GitHub
微软旗下的源代码存储库GitHub在4月底发生了多次宕机。
4月21日,多个GitHub服务出现访问异常,持续了一个半小时。4月22日,服务再次出现中断,持续时间至少两小时。4月23日,多个GitHub服务也遇到了各种问题的影响,持续了近三小时。软件工程师经常使用的API请求、Webhooks等服务被标注为 "已降级"。
官方没有提供任何原因,也没有公布恢复过程的信息。虽然GitHub网站上更新了微软试图修复各种故障的情况,但并没有提供任何关于问题的细节,开发者们在Twitter上抨击微软缺乏透明度。
(5) 6月9日,IBM Cloud
6月9日,IBM Cloud 遭遇了重大宕机故障,平台上托管的多项服务也因此中断,其中就包括知名科技新闻聚合网站 Techmeme。本次宕机事件从下午2点30分左右开始,并快速蔓延至全球。
IBM Cloud页面也在故障发生期间短暂关闭,然后在下午6:30之后报告称一系列问题已经得以解决。
IBM网站解释到,INM网络运营团队调整了路由策略,处理了第三方提供商引入的问题,这次故障也得以解决。
(6) 8月24日,Zoom
8月24日,Zoom发生了部分中断,导致用户无法访问其离线会议和在线视频会议,本次中断持续了3小时。Zoom并未解释造成中断的原因,他只是在状态页面上说找到并解决了问题。
Zoom现在每天约有1.15亿活跃用户,该公司的服务可能已成为2020年在家工作的关键词。
(7) 9月28日,Microsoft 365和Azure
9月29日,Microsoft Office 365办公软件和Azure云产品出现故障,导致部分用户服务中断数小时。
微软表示,故障涉及Outlook电邮服务和Teams办公协作工具的部分用户,其中Teams具备聊天和视频会议功能,在新冠疫情期间其用户增长迅速。微软表示,一些用户无法登录这些服务,但已经登录上去的不受影响。
当天,Azure云计算用户也遭遇了与Office365套件类似的问题。Azure是微软的大规模云计算系统,许多企业都依靠其存储和分析数据。
(8) 10月7日,Microsoft Office 365
10月7日,Microsoft更新了其网络基础结构,随后,Microsoft Teams,Outlook,SharePoint Online,OneDrive for Business和Outlook.com的功能均下降。
当天下午2:48,Twitter上的Microsoft 365官方号确认中断。微软随后表示,网络基础结构的最新更新对Microsoft 365服务产生了影响,目前环境正在恢复更新。
(9) 11月25日,AWS
11月25日,亚马逊云服务出现中断,大量网站和服务受到影响。本次宕机持续约5小时。
AWS发布通知称,处理流媒体数据的Kinesis服务出现问题,大量网站受到影响,错误率上升。并且,宕机还影响了它向状态页发布更新的能力。
据了解,此次宕机导致亚马逊智能安全子公司Ring、Roku、软件开发商Autodesk纽约大都会运输署的地铁网站,论坛出版集团旗下的《芝加哥论坛报》和《巴尔的摩太阳报》等一些公司或机构的服务受到了影响,网站频频出现错误。
值得注意的是,AWS 的大客户苹果、Slack、Netflix 并没有受到宕机的影响,仍然运行正常。
(10) 12月14日,Google Cloud
12月14日晚间,Google服务器又一次全球宕机。这是近5个月来第3次全球宕机。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服务出现死机,用户无法正常使用,全球多个国家及地区用户均受到影响。
Google随后发推文确认,由于内部存储配额问题,Google身份验证系统中断。宕机45分后问题得以解决,现在所有服务都已恢复。
互联网时代对系统的可靠性提出了更高的要求。关键系统往往要求每年的不可用时间不能超过53分钟,而以上事故很多都远远超过了故障预算。
未来,系统架构会越来越复杂,整体的数据和流量也会越来越大,有专家表示,快速响应和控制影响半径,是当前的互联网需要重视起来的两个实践方向。