7月的CrowdStrike事件清楚地展示了允许软件供应商深入访问网络基础设施的风险,这也引发了人们对数字服务集中在少数几家公司手中的担忧。一篇预见性的Reddit帖子指出,CrowdStrike对于世界上许多最大企业来说是一个威胁载体,同时也是一个数据的金矿。
鉴于7月19日CrowdStrike失败更新后引发的全球计算机停机事件,审慎的高管们正在问:“我如何防止类似的事情再次发生?”
随着大型科技公司市场集中度的提高,类似的大规模故障完全有可能再次发生。根据Synergy Research Group的数据,三大领先的云服务提供商——Amazon、Microsoft和Google——占据了全球市场的67%,其中,仅Amazon在2023年底就占据了31%的市场份额。
有两种策略可以减轻类似软件故障的影响:多样化网络基础设施和模拟故障处理。在讨论防御措施之前,我们先来讨论一下引入CrowdStrike或其他第三方软件供应商进入企业所带来的风险。
CrowdStrike崩溃事件只是冰山一角
将设备访问权限授予外部软件或服务供应商会带来以下风险:
• 失去对网络功能的访问(如CrowdStrike事件中所发生的那样)
• 数据的未经授权访问(你的知识产权和客户数据安全吗?)
• 通过聚合数据对你的业务活动进行可视化监控
此外,你的数据安全现在依赖于网络安全公司或云服务提供商的安全实践。
考虑一下“移动设备管理”或“设备监控”工具,它们中的大多数实际上都是rootkit,可以让第三方100%控制你公司的设备。对于任何拥有专有知识产权并希望保密的公司来说,这种做法似乎都不明智。
没错,CrowdStrike确实搞砸了,并以一种极其壮观的方式导致数百万台Windows计算机瘫痪,但这只是冰山一角,更大的威胁——我们集体而方便地忽视了——是某个外部实体掌控了你的业务运营。
高级安全软件至关重要,但你在提供安全仪表板的名义下将网络的钥匙交给了别人。
人们担心Facebook的跟踪,并关闭第三方Cookies以保护私人生活,但像CrowdStrike这样的软件可以监视、跟踪每一台公司电脑,从最底层的实习生到CEO。与之相比,Cookies只是小问题。
现在,即使CrowdStrike本身是可靠的,他们的软件也按预期运行,但如果有人入侵了CrowdStrike会怎样?理论上,攻击者可能会获得航空公司网络、银行网络以及全球各大企业的访问权限,这让我感到担忧。如果你给予某个供应商如此广泛的网络访问权限,这种风险必须被评估。
那么,作为CIO或CISO,你如何减少这些大型科技公司发生另一场大规模故障的风险呢?
为失败做好准备:规划、演练、预期
减少大规模系统故障的关键在于为灾难性事件做好规划,并演练应对措施。将应对失败的过程纳入日常业务实践中。当失败是出乎意料且罕见时,处理它的流程往往未经测试,甚至可能导致使情况恶化的行动。
建立一个能够适应和应对故障的网络和团队。记得保险公司以前运行自己的数据中心,并每年进行两次灾难恢复测试吗?如今很少有公司在应急计划上做到如此彻底,但一些公司,如Netflix,通过混沌工程树立了良好的榜样。Netflix的Chaos Monkey开源软件通过引入故意的系统中断,模拟现实世界中的故障,以测试系统的弹性。
要像Netflix,而不是像Delta Airlines那样:在CrowdStrike更新后,Delta的关键机组人员跟踪系统大部分时间都处于离线状态,几乎持续了一周。
多样化你的供应商和系统
减少大规模故障的第二个策略是避免因数字技术供应商的集中化而造成的软件单一化。这虽然更复杂,但值得尝试。
一些公司有一项政策,即从三到四个不同的供应商那里购买核心网络设备。虽然这使得日常管理变得稍微困难一些,但他们有信心,即使一个供应商出现问题,他们的整个网络也不会瘫痪。无论是在技术领域还是生物学中,单一文化都极易受到能够摧毁整个系统的流行病的攻击。
在CrowdStrike的情境下,如果公司网络是Windows、Linux和其他操作系统的混合体,那么损害就不会如此广泛。
对于“多样化系统”这一观点,2022年7月加拿大的Rogers Communications网络中断就是一个例子,这家加拿大电信提供商经历了一次重大服务中断,导致其有线互联网和移动网络服务停止,影响了超过1200万用户,持续时间长达26小时。
恢复工作受到阻碍,因为Rogers的员工通常是使用Rogers的蜂窝和互联网系统的用户,而这些系统当时崩溃了。那些不在办公室的员工无法访问互联网,甚至无法使用他们的手机。一份第三方审查报告指出,Rogers的员工在中断发生14小时后才得以访问记录故障根本原因的关键错误日志。
结论
第三方软件供应商和云服务已经成为IT领域不可或缺的一部分,但如果我们想要将业务风险降到最低,就必须抵制将所有鸡蛋放在一个篮子里的诱惑。
从CrowdStrike事件中得到的教训是:多样化你的供应商和系统,并重新审视你的应急计划。