在过去一年中,大多数停机事故都是由已知原因引起的,并且可通过强大的设计和流程进行预防。
根据调研机构Uptime Institute公司在2018年夏季公布的调查结果,近三分之一的数据中心在过去一年中出现了停电,而2017年则为25%。但这一增长并不是由于一些致命的新恶意软件造成的。
相反,导致停机的三大原因是断电(33%)、,网络故障(30%)以及IT或软件错误(28%)。
最重要的是,80%的数据中心管理人员表示这些停机事件是可以预防的。
但却无法阻止雷击(例如2018年9月雷击摧毁了微软Azure在圣安东尼奥市数据中心)或零日恶意软件攻击。但是,但是,通过适当的规划和数据中心设计,由于意外天气事件、攻击、例行人为错误或未调度系统导致的停机可以最大限度地减少影响。
在中断发生后,使数据中心快速启动并运行同样重要。根据信息技术情报咨询公司今年的报告,数据中心运营商一小时的停机时间的损失平均为260,000美元,而5分钟的停机时间损失仅为2,600美元。
基础设施冗余仍然有效
在最基本的层面上,数据中心系统需要备份。备份电源主冷却系统,备份数据,甚至备份整个数据中心。
Uptime Institute公司表示,很多企业需要拥有2N冷却和电源架构的数据中心,换句话说,需要一个完全冗余的镜像系统。在去年有22%的用户经历了停电。与那些采用价格更低,不完全冗余的“N+1”方法的人相比,减少了三分之一的中断,这些人中有33%的人报告了停机事件。
而整体数据中心的备份可提供更高的可靠性。根据Uptime的调查数据,40%的数据中心管理人员表示他们会在两个或多个数据中心复制工作负载和数据。
“如果有一个数据中心并且有雷击,那么你就会宕机失败。”SSH通信安全首席技术官Markku Rossi表示,“企业应该有一个辅助数据中心,它们之间存在物理隔离,因此它们不依赖于相同的电源。”
他补充说,没有任何数据中心能够免受这个问题的影响,他以微软公司美国中南部的数据中心受雷击为例。
“如果有第二个数据中心,可以立即实现故障转移。”他说。
Rossi补充说,无论备份系统处于什么位置,计划和测试都是关键,并且计划需要考虑到当今数据中心的复杂性,在这些数据中心,一些问题可能触发其他问题。
他以最近GitHub公司的数据中心在维护期间发生的中断为例。他们在几分钟内就解决了物理问题,但是需要24小时才能使数据正确同步。
数据中心管理人员需要查明潜在的问题区域,然后在发生事情时准备好工具和流程。
Rossi说:“集中精力建立流程,建立为失败做准备的心态。”
不仅仅在周边加强安全
数据中心管理人员应该从最近发生的与恶意软件相关的中断中吸取的最大教训之一就是,拥有一个强化的边界已经不够了。攻击者可以进行攻击。
2018年,很多医疗保健公司、政府机构、教育机构和主要制造商都受到了冲击,尽管在去年创纪录的违规行为之后,每个人都应该已经处于高度戒备状态。
显然,保持最新的防御措施以防止恶意软件首先进入是至关重要的。但数据中心管理人员必须做好准备,以防周边防御失败,并具有二级保护。
其中包括恶意流量检测机制,网络防御(如分段)和最低权限的访问和通信方法。
总部位于以色列的网络安全服务商Guardi Core公司产品管理总监Igor Livshitz说,这些可能有助于防止恶意软件进入网络后传播,或者至少减慢它的速度,以便让安全团队有机会做出回应。
WannaCry特别利用了服务器消息块传输协议中的漏洞利用。他说,数据中心应该采取更多措施来减少横向通信。
“在过去一年中WannaCy勒索软件的许多案例中,攻击广泛影响的主要驱动因素是,一旦这些蠕虫在数据中心内占领立足之地,就很容易扩散。”Livshitz说,“事实上,服务器之间的SMB流量根本不是必需的。如果它被阻止,攻击的扩散和对数据中心的破坏可能会大大减少,并且在它造成如此大的破坏之前的早期阶段检测到攻击。”
从2018年的违规事件中得到的教训是,数据中心的管理者必须面对一个新的威胁。他们需要重新回归基础。
几乎所有的数据中心停机都是由于糟糕的规划和投资决策,加上流程不良或无法遵循流程,Uptime Institute研究执行主任Andy Lawrence在2018年6月的调查报告中写道。“Uptime Institute报告或研究的几乎所有故障都发生过,并且经常有很好的记录。”
闪电袭击和新型恶意软件可能占据行业头条新闻,但是当涉及到弹性时,数据中心基础设施的安全性仍然是最重要的。