云计算应急措施：中小企业应吸取的教训-51CTO.COM

2023年7月CrowdStrike的宕机事件提醒我们，无论企业规模大小，都高度依赖于其IT系统。例如，一些医院因宕机无法进行预定的手术，多架航班被取消，全球范围内的旅客因此滞留。

对于许多人来说，航空公司系统的全球瘫痪似乎只是“大企业”的问题，毕竟，只有涉及广泛系统的问题才会带来如此深远的影响。

但现在尘埃落定，显然中小型企业也能从中汲取许多教训，了解应急计划的重要性，以及在选择云服务提供商时尽职调查的必要性。应提出的问题包括：该云提供商是否有外部依赖可能影响其服务?该云提供商是否完全掌控其云服务的所有方面?在部署过程中使用了哪些操作系统和软件?

此次宕机是由内容更新引发的。虽然问题很快被诊断出来，但由于受影响的系统无法启动，更新无法自动推送，必须进行手动干预。

以下是一些应对宕机并提前规划的建议：

1. 了解你的云依赖性。软件生态系统中充满了可能影响软件、服务器、平台以及最重要的日常业务操作的依赖关系。以上事件中，一些Microsoft Azure用户依赖于CrowdStrike。用户应该对这种风险有所了解。如果你理解这些依赖关系，就能更好地评估风险并做好相应的准备。

2. 构建云冗余系统。事实上，宕机随时可能发生。我们可能不知道，因为它可能只影响少部分用户，但最终，你的环境也可能遭遇宕机。因此，拥有备份非常重要。如果你依赖云服务提供商，务必要深入了解他们的冗余机制和备份策略。冗余系统能确保在宕机期间的业务连续性。

3. 了解你的更新策略。此次受到CrowdStrike更新影响的公司依赖于自动更新，而如果管理不当，自动更新可能引入漏洞。中小企业应制定相应的政策，控制更新的应用方式和时间，确保在向所有系统部署更新之前进行测试，以防止大范围的问题。

4. 投资业务连续性规划。一份完善的业务连续性计划可能复杂、昂贵且耗时，但它也能带来巨大的回报。举例来说，如果你的业务周期具有季节性，想象一下如果系统宕机三小时会带来多大损失。有些企业可能在一年中某个月完成了80%的业务，失去三小时的可用性可能对企业的利润产生重大影响。

有很多服务可以帮助你实现这一点。一些云服务提供商也可以协助此事，因为云的采用通常是为了确保业务连续性，然而，仅仅有一份书面的计划是不够的。进行演练和压力测试系统同样重要。这样不仅能让你放心，还能向保险公司证明在发生宕机时，你的公司已经尽职尽责地做好了准备。

许多公司可能会拖延或推迟为宕机做准备。他们甚至可能认为这种情况不会发生在自己身上，或者认为准备太昂贵，几小时或几天的宕机也无关紧要。

但IT和数字化运营已逐渐成为企业的核心。应急计划不能被忽视。幸运的是，现代IT环境比几年前更加健全。企业有多种选择和策略来保持业务的可用性：为本地企业提供的云备份、混合云以及包括保险公司和灾难恢复顾问在内的服务生态系统。

这些流程不必成为公司财务的负担。企业可以评估其风险、风险承受能力以及宕机的潜在影响，但最糟糕的情况是企业不解决这些问题。虽然新闻报道集中在7月宕机期间影响到的大型全球企业，但许多小型企业也受到了影响，且其中许多的恢复过程并不轻松。

立即采取措施保障公司运营健康，是企业长远发展最重要的投资之一。

俗话说，防患于未然比事后补救要好。