2023年7月CrowdStrike的宕机事件提醒我们,无论企业规模大小,都高度依赖于其IT系统。例如,一些医院因宕机无法进行预定的手术,多架航班被取消,全球范围内的旅客因此滞留。
对于许多人来说,航空公司系统的全球瘫痪似乎只是“大企业”的问题,毕竟,只有涉及广泛系统的问题才会带来如此深远的影响。
但现在尘埃落定,显然中小型企业也能从中汲取许多教训,了解应急计划的重要性,以及在选择云服务提供商时尽职调查的必要性。应提出的问题包括:该云提供商是否有外部依赖可能影响其服务?该云提供商是否完全掌控其云服务的所有方面?在部署过程中使用了哪些操作系统和软件?
为宕机做好准备
此次宕机是由内容更新引发的。虽然问题很快被诊断出来,但由于受影响的系统无法启动,更新无法自动推送,必须进行手动干预。
以下是一些应对宕机并提前规划的建议:
1. 了解你的云依赖性。软件生态系统中充满了可能影响软件、服务器、平台以及最重要的日常业务操作的依赖关系。以上事件中,一些Microsoft Azure用户依赖于CrowdStrike。用户应该对这种风险有所了解。如果你理解这些依赖关系,就能更好地评估风险并做好相应的准备。
2. 构建云冗余系统。事实上,宕机随时可能发生。我们可能不知道,因为它可能只影响少部分用户,但最终,你的环境也可能遭遇宕机。因此,拥有备份非常重要。如果你依赖云服务提供商,务必要深入了解他们的冗余机制和备份策略。冗余系统能确保在宕机期间的业务连续性。
3. 了解你的更新策略。此次受到CrowdStrike更新影响的公司依赖于自动更新,而如果管理不当,自动更新可能引入漏洞。中小企业应制定相应的政策,控制更新的应用方式和时间,确保在向所有系统部署更新之前进行测试,以防止大范围的问题。
4. 投资业务连续性规划。一份完善的业务连续性计划可能复杂、昂贵且耗时,但它也能带来巨大的回报。举例来说,如果你的业务周期具有季节性,想象一下如果系统宕机三小时会带来多大损失。有些企业可能在一年中某个月完成了80%的业务,失去三小时的可用性可能对企业的利润产生重大影响。
有很多服务可以帮助你实现这一点。一些云服务提供商也可以协助此事,因为云的采用通常是为了确保业务连续性,然而,仅仅有一份书面的计划是不够的。进行演练和压力测试系统同样重要。这样不仅能让你放心,还能向保险公司证明在发生宕机时,你的公司已经尽职尽责地做好了准备。
平衡风险与成本
许多公司可能会拖延或推迟为宕机做准备。他们甚至可能认为这种情况不会发生在自己身上,或者认为准备太昂贵,几小时或几天的宕机也无关紧要。
但IT和数字化运营已逐渐成为企业的核心。应急计划不能被忽视。幸运的是,现代IT环境比几年前更加健全。企业有多种选择和策略来保持业务的可用性:为本地企业提供的云备份、混合云以及包括保险公司和灾难恢复顾问在内的服务生态系统。
这些流程不必成为公司财务的负担。企业可以评估其风险、风险承受能力以及宕机的潜在影响,但最糟糕的情况是企业不解决这些问题。虽然新闻报道集中在7月宕机期间影响到的大型全球企业,但许多小型企业也受到了影响,且其中许多的恢复过程并不轻松。
立即采取措施保障公司运营健康,是企业长远发展最重要的投资之一。
俗话说,防患于未然比事后补救要好。