年终盘点：2023年最重大的15次云故障-51CTO.COM

随着云平台技术对于运行关键业务流程的重要性愈加突显，各种规模的科技巨头和厂商今年都经历了多次云故障。

事实上，服务故障已经变得如此普遍，准备工作也如此重要，以至于11月份在AWS re:Invent会议上，云巨头AWS公布了Fault Injection Service (FIS)服务的更多场景，让客户可以用来测试当AWS可用区域发生全面断电或者与另一个AWS区域断开连接时应用的运行情况。

Parametrix Insurance今年发布了一份报告得出结论称，作为有最多财富500强企业所依赖的云区域，AWS us-east-1的关键任务服务中断24小时可能会造成34亿美元的直接收入损失，中断48小时可能造成78亿美元的直接损失。

该报告称，east-1和west-2 AWS服务中断24小时可能造成82亿美元的损失，如果中断48小时可能造成175亿美元的损失。

Aviatrix将于明年1月份发布的一份报告发现，对于那些担心威胁行为者造成服务中断的IT专业人员来说，“过去一年中，由防火墙造成的云网络故障的数量，是受访者组织内网络攻击所造成故障的两倍多”。

下面就让我们详细了解一下2023年规模最大的云故障事件。

2023年1月微软服务中断

1月17日，北美地区的Microsoft Teams和Microsoft 365用户在美国东部时间上午9:17至下午2:18左右遭遇服务中断。

中断跟踪网站DownDetector显示有数千个Teams报告问题，其中包括上午10点左右的504份问题报告，以及上午11点的另外503份问题报告。

其中，大约66%是服务器连接问题，20%是应用问题，14%是登录问题。

1月25日，据路透社报道称，网络问题导致美洲、欧洲、亚太、中东和非洲的Azure、Teams、Outlook及其他服务中断。上午晚些时候，系统完全恢复之后服务也恢复了。

据路透社报道，微软将此归咎于微软广域网（WAN）设备的网络连接问题。

据Quest Software的Practical 365称，该事件持续了大约5个小时，问题涉及命令一个WAN路由器发送消息到其他路由器，导致相邻关系重新计算和表转发，从而阻止数据包转发。

2023年1月Glue故障

IT Glue于太平洋标准时间1月18日上午8点左右报告称，必须进行“紧急数据库维护……以解决一些客户遇到的问题”。

根据事件报告，Kaseya旗下的IT文档软件厂商IT Glue在太平洋标准时间上午9:33之前一直处于只读模式。IT Glue在1月20日之前恢复了所有密码和文档。

尽管IT Glue没有后续日期的事件报告，但Reddit用户在1月9日和1月11日发布了有关该平台的问题。

IT Glue的用户群包括全球13000多个组织和超过350000人。

2023年2月Oracle、NetSuite故障

尽管Oracle公司联合创始人、首席技术官Larry Ellison公开表示Oracle Cloud Infrastructure (OCI)“不会宕机”，但还是在今年2月遇到了一些问题。

据Network World报道，2月OCI发生了多天的中断故障。

这次中断从太平洋标准时间2月13日星期一上午10:30左右开始，一直持续到2月15日星期三下午3:30左右，覆盖了美洲、澳大利亚、亚太地区、中东、欧洲和亚洲的用户。

这次故障涉及支持OCI公共域名系统API后端基础设施的性能问题，导致无法处理某些传入服务请求。Oracle使用实时后端优化和DNS负载管理微调来缓解该问题。

据Network World报道，OCI Vault、API Gateway、Oracle Digital Assistant和OCI Search with OpenSearch在故障期间都遇到了问题。

据Data Center Dynamics称，由于马萨诸塞州沃尔瑟姆市的Cyxtera数据中心起火，Oracle子公司NetSuite在美国东部时间2月14日中午左右开始停电。

据The Register报道，马萨诸塞州的这个数据中心切断了服务器电源，并于美国东部时间晚上10点26分左右开始恢复帐户。

至少一名Reddit用户报告称，因为这次事件他们的帐户收到了积分。

2023年3月Datadog故障

Datadog花了近两天的时间才解决从3月8日开始的服务中断故障。

据MarketWatch报道，总部位于纽约的云监控和安全工具厂商Datadog于美国东部时间凌晨1:31向用户通报了Web应用发生的问题。富国银行的分析师甚至发表了一份报告，表达了对此次中断对Datadog收入影响的担忧。

根据一份文字记录显示，Datadog公司首席执行官Olivier Pomel在5月财季电话会议上透露，该事件给Datadog造成了约500万美元的损失，而且需要约500至600名工程师进行三班轮换才解决。

根据文字记录，Pomel表示，他“不太担心这种情况再次发生”，并且Datadog学会了如何“更快地恢复”以及“在这种情况发生时为我们的客户提供更好的办法以缓解问题”。

科技专栏作家Gergely Orosz写道，Datadog“很可能不会在系统停机时向客户收取数据传输费用”，并且“损失相当于公司一天的收入”。

Orosz表示，操作系统更新是造成此次中断的一个因素，并表示Datadog可以更好地与用户就该事件进行沟通。

2023年4月微软服务中断

4月20日，微软用户在使用Microsoft 365在线应用和Teams协作应用时遇到了近6个小时的问题。

微软在太平洋夏令时间上午6:56发推文表示，正在“调查Microsoft 365 Online应用和Teams管理中心的访问问题”。

微软在下午1点10分发布推文表示，“通过我们的内部遥测收到了积极的确认，并向受影响的用户表明服务已恢复”。

Ookla的DownDetector网站注意到当天有数千起M365停机报告，太平洋夏令时间上午7点左右报告超过3000起，并在太平洋夏令时间上午9点左右达到峰值。

据The Register报道，Teams、SharePoint Online和Outlook在4月24日再次遭遇中断。微软于太平洋夏令时间凌晨4:17发布了有关该问题的推文，并于上午7:17再次发布推文称“大部分影响”已得到修复。

据Bleeping Computer报告，4月25日Exchange Online再次出现故障。微软于下午1:21在推特上发布了有关该问题的信息，并表示问题大约一个小时后得到解决。

2023年4月份谷歌服务中断

据The New Stack报道，太平洋夏季时间4月25日下午5点20分左右，法国巴黎的一座数据中心发生火灾，导致Google Cloud和欧洲地区的用于遇到90多种云服务的瘫痪。

IT Pro表示，受影响的服务包括Google Cloud Storage (GCS)、Cloud Key Management Service (KMS)、Cloud Identity and Access Management (IAM)和Google Kubernetes Engine (GKE)。

5月10日，谷歌报告称“数据中心受影响部分的某些实例仍然不可用。”

2023年4月Oracle-Cerner中断

据Federal News Network报道，4月17日，美国退伍军人事务部遭遇了Oracle-Cerner电子健康记录(EHR)系统持续5个小时的中断故障。

据FNN称，此次中断是由于数据库功能升级和故障转移造成的。

然后在4月25日，Oracle-Cerner系统再次发生近4个小时的中断，给退伍军人管理局、美国国防部和美国海岸警卫队带来了影响。

据EHR Intelligence称，退伍军人事务部停止了该系统的其他实施，直到使用该系统的5个站点恢复了对该系统功能的信心。

2023年5月Cisco SD-WAN故障

思科vEdge平台的公共根证书过期导致思科在X（以前的Twitter）上公开道歉，思科发帖称：“我们对由此带来的挑战表示歉意。”

根据思科网站上的一篇帖子，思科“发布了软件升级版本以永久解决此问题”。

思科表示，vEdge路由器提供“思科SD-WAN解决方案的广域网、安全性和多云功能”。“思科SD-WAN vEdge路由器以硬件、软件、云或虚拟化组件的形式提供，位于远程办公室、分支机构、园区或数据中心等站点周边。”

2023年6月微软服务中断

Teams和Outlook等Microsoft 365服务在6月初连续几天出现大范围中断故障，几天后又发生了严重的OneDrive中断。

然后在第二天，数千名用户遭遇了微软Azure云平台门户网站的瘫痪。

微软在当月晚些时候证实，分布式拒绝服务(DDoS)攻击是造成此次事件的原因。

详细来说，6月5日早上，一次服务中断影响了数万名Microsoft 365用户。微软表示，停止了一项未具体说明的“更新”。

“我们已经确定对Microsoft Teams、SharePoint Online和OneDrive for Business的下游影响，”微软在美国东部时间上午11:45左右发布的一条推文中这样表示。

微软称，已经阻止了“潜在问题的更新”在整个服务中进一步传播，并正在对微软已部署更新的部分基础设施进行审查，以快速恢复更改操作。

第二天，微软发现服务问题“再次出现”。美国东部时间中午12:03，微软表示，已经“发现再次造成影响”，并且正在采取进一步的缓解措施。

微软表示：“探测表明，由于之前采取了缓解措施，相对于早期迭代的影响有所减少。”

截至美国东部时间上午11:22，3118位Down detector用户报告了Microsoft 365出现的问题。

6月8日，一个名为“Anonymous Sudan”的黑客组织声称对造成Microsoft OneDrive的中断故障负责。美国东部时间下午3点，微软表示“正在继续分析监控并执行负载平衡流程以提供缓解措施”。

当天状态页面的后续更新表明，中断仅对那些通过网络浏览器访问OneDrive的操作造成了影响，微软在更新中表示：“使用桌面客户端、同步客户端或Office客户端访问OneDrive服务不受影响。”

第二天也就是6月9日，微软用户经历了一次严重的中断，Azure云平台门户关闭。

到那天下午，微软似乎已经解决了这个问题。美国东部时间上午11点刚过，DownDetector上有关Azure可用性问题的用户报告开始增多，在接下来的两个小时内记录了数千份有关Azure中断的用户报告。

“Anonymous Sudan”声称对Azure门户进行了DDoS攻击。

6月12日星期一，微软表示，“网络流量激增”已经被确定为导致此次中断的可能原因。

微软表示：“我们发现网络流量激增，影响了这些网站的流量管理能力，并导致客户访问这些网站出现问题。”

2023年6月AWS故障

根据AWS网站上的一份事件报告，AWS在6月经历了长达几个小时的中断事件。

报告称：“自太平洋夏季时间2023年6月13日上午11:49开始，北弗吉尼亚 (US-EAST-1)区域的客户遇到了Lambda函数调用错误率和延迟增加的问题。由于Lambda函数调用降级，其他一些AWS服务包括Amazon STS、AWS Management Console、Amazon EKS、Amazon Connect和Amazon EventBridge也出现了错误率和延迟增加的问题。Lambda函数调用于太平洋夏令时间下午1:45开始恢复到正常水平，所有受影响的服务也已经在太平洋夏令时间下午3:37完全恢复。”

报告称，为了防止此事件再次发生，AWS“立即禁用了触发该事件的Lambda前端队列活动的扩展活动，同时我们致力于解决导致该问题的潜在错误；错误已经得到解决并部署到所有区域”。

报告称：“这一事件还发现了我们Lambda蜂窝架构中用于Lambda前端扩展的漏洞，这使得潜在错误在受影响单元扩展时产生影响。Lambda已经完成了多项行动项目，以解决蜂窝架构扩展的紧迫问题，并有望在今年晚些时候完成更大的工作，以确保所有蜂窝都限制在经过充分测试的尺寸，以避免未来出现意外的扩展问题。”

据DownDetector报道，太平洋夏季时间6月13日中午左右，数万名用户报告总部位于西雅图的AWS出现中断，佛蒙特州机动车辆管理局、波士顿环球报和纽约大都会交通局等组织在X（以前的Twitter）上报告了AWS造成的服务中断。

2023年7月的Slack故障

Salesforce旗下协作平台Slack在太平洋夏季时间7月27日遇到了系统级的问题，持续了大约1个小时，到凌晨3点解决了。

Slack在一篇在线帖子中表示，在中断期间“用户无法跨多个平台发送或接收消息”。

帖子称：“我们的工程团队在对管理内部系统通信的服务进行更改之后发现问题，这个问题导致Slack功能退化，直到恢复更改，解决了所有用户的问题。”

2023年7月IT Glue故障

7月份，持续约1个小时的IT Glue问题导致出现“502 Bad Gateway”错误，IT Glue于太平洋夏季时间7月18日上午11:54发布消息称，这个性能问题“可能会使我们的一些合作伙伴无法访问IT Glue”，该事件于中午12点46分得到解决。

2023年9月Microsoft Teams故障

Microsoft Teams在9月中旬遇到了持续2个多小时的故障。

太平洋夏季时间9月13日上午7点10分，微软在X（以前的Twitter）上发帖称，微软正在“调查影响Microsoft Teams的事件”，并且“用户可能会遇到发送和接收消息出现延迟或失败的问题”。

微软“确定该问题集中于通过北美受影响的基础设施提供服务的某些用户”，并将“受影响的服务流量路由到情况良好的基础设施以减轻影响”。

微软于太平洋夏季时间上午9:43发布消息称：“我们已经确认与此问题相关的影响已得到解决。”

思科旗下的ThousandEyes情报公司发布文章称，“应用前端是可以访问的，但尝试登录系统和/或与其交互会导致500个错误和超时。”

该公司表示，这说明“存在某种形式的后端系统或分发层问题”。

2023年9月Salesforce中断故障

根据Salesforce的一份报告，9月20日Salesforce产品和服务出现了中断，持续了大约2个小时，但MuleSoft和Tableau这两家公司的服务中断了大约4个小时。

根据公司审查结果显示，Salesforce意外地因一项政策变更而导致了中断，这次政策变更“是我们对安全控制进行持续审查和更新的标准操作程序的一部分”。

报告称：“虽然此次变更的目的是增加深度防御，但无意中阻止了对超出其预期范围的其他合法和必要资源的访问。最终结果是由于缺乏访问权限，导致服务之间的通信出现故障，以至系统出现故障，限制了一些客户登录和使用这些服务。”

Salesforce更改了变更审核和批准流程，并修复了Tableau中的启动竞争条件错误，以防止同一问题再次发生，还承诺：

“有专门的自动化部署管道来执行交错的策略部署”，
“额外的监控和警报功能可以更快地诊断与政策相关的问题”，
以及“重新构建MuleSoft CloudHub的后端组件……以提高弹性”。

2023年11月Cloudflare中断，Workday归咎于位于俄勒冈州的数据中心

Workday和Cloudflare把从11月2日开始发生的中断故障归因于俄勒冈州的一个设施内问题，导致思科HundredEyes推测两者受到同一数据中心的影响。

根据Cloudflare网站上的一篇帖子，Cloudflare首席执行官Matthew Prince表示，他对11月初发生的持续多天的事件感到“抱歉和尴尬”，并将部分责任归咎于位于俄勒冈州由Flexential运营的数据中心。

11月2日，Cloudflare面向客户的控制平面界面和分析服务发生中断，事件一直持续到11月4日。

Prince表示：“截至世界标准时间11月2日17:57，我们能够在灾难恢复设施中恢复大部分控制平面，灾难恢复设施上线之后，许多客户不会遇到大多数产品问题。然而，其他服务需要更长的时间才能恢复，并且在我们完全解决事件之前，使用这些服务的客户可能会遇到问题。在事件发生期间，大多数客户都无法使用我们的原始日志服务。”

Prince对此表示歉意，因为Cloudflare“相信我们拥有高可用性系统，即使我们的某个核心数据中心提供商发生灾难性故障，也能够阻止这样的中断。”

“许多系统确实按照设计保持在线，但一些关键系统具有不明显的、导致其不可用的依赖性。”

Cloudflare承诺做出的改变包括：

“消除对我们核心数据中心的所有服务控制平面配置的依赖，并将其转移到尽可能首先由我们分布式网络供电的地方，”
“要求所有指定为普遍可用的产品和功能都具有经过测试的可靠灾难恢复计划，”
“对所有核心数据中心进行彻底审核，并制定重新审核计划，以确保其符合我们的标准。”

来自Workday的一份报告称，事件持续了3个小时，但在报告中没有提及Cloudflare或Flexential，而是将其归咎于“俄勒冈州波特兰数据中心的停电，导致部分客户的服务中断”。

Workday表示：“由于备用电源故障的问题，以及不稳定的电力环境带来了额外的挑战，服务恢复所需的时间比通常情况要长。”

据KRON4称，DownDetector曾一度记录了1200多份与Workday中断相关的报告。