一、概述
IT灾难事件大家都不陌生,也是老生常谈了,但为什么会发生IT灾难事件呢?深入来看其实包含两个方面,即触发因素和根本原因。触发因素是触发初始事件或异常情况,根本原因是把最初的事件变成灾难的原因,它们通常与无法在合理的时间(可容忍的RTO时间)内从事件中成功恢复有关,而且灾难并非总是如人们所料而发生。
二、IT灾难的触发因素
正常数据中心运营面临的典型IT灾难触发因素总结包括以下方面:
1、机房遭遇渗水或漏水事故;
2、停电相关事件,如短路、闪电或中央断电;
3、机房冷却系统故障;
4、火灾,通常由于过热,短路或电子元件故障产生;
5、人为错误或缺乏使用技巧,这种情况有时代价高昂;
6、软件故障,程序员可能会犯错;
7、数据中心和外部的通信故障,有情况发生时,延误了处理;
8、地震、台风、洪水,山火等自然灾害,全球变暖,极端气候会增多;
9、机器设备本身硬件故障;
10、错误冗余,也就是冗余在关键时刻没起到作用;
11、蓄意的网络攻击,如黑客或者勒索软件等;
12、网络病毒感染;
13、地区社会暴乱或者战乱;
14、其他无法预料的突发事件。
三、IT灾难的根本原因
IT灾难的根本原因也就是把我上面提到的这些触发因素演变成真正IT灾难的原因,如果保护和预防措施很到位的话,那就不能称得上是真正的灾难了,因为可以恢复,或者把损失降到可以接受的范围内。那么相反一旦发生IT灾难,如果没有做好相应的保护机制和措施,最不好评估的损失就是数据的损失,因为绝大部分数据一旦丢失是不可再生的。
这里着重讨论一下,在许多情况下,虽然有诸多的保护措施,但是有些措施还是有不确定性,也就是不能确保在灾难发生时一定会起作用。例如以下情况:
1、不间断电源
有一种情况,在电源故障后,人们才发现UPS电池耗尽或UPS单元之间的电源平衡不正确,结果其中一个UPS单元过载并发生故障,导致与其相连的系统瘫痪;
2、防火隔离保护
只有在真正发生火灾的情况下,人们才能知道这个系统效果有多大。如果只有一个水管,一个电缆隧道或一个冷却隧道没有很好地隔离,那么火灾或不可接受的高温很可能会蔓延到相邻的房间;
3、灭火系统
除非在真实的环境中进行试验,否则人们不会知道是否有气体泄漏或系统故障;
4、错误冗余
由于配置错误,可能有些冗余保护起不到真正的冗余作用。根据我们的经验,这通常适用于通信交换机,SAN控制器和某些存储系统。可能只有当其中一个系统出现故障时,组织才会发现高可用配置不正确,并发生应用程序中断;
5、异地灾备间飞行数据丢失问题
在异地灾备中,故障转移到远程位置是灾难恢复战略的一个关键部分。然而启动故障转移的最大障碍是两个站点之间数据完整的不确定性。这种不确定性的原因是生产站点和恢复站点之间传输的数据不一致。一个站点上的灾难需要能够在一个远程位置进行恢复,即远离主站点的物理实际空间。确保远程恢复的一个主要问题是确保飞行中的数据完整且一致。那么何为飞行中的数据丢失呢?灾难发生后生产系统可能已提交数据更改,但数据可能未到达恢复站点,这就是飞行中的数据丢失,如果能确保飞行中的数据零丢失,能使您能够频繁地进行故障切换和故障恢复。测试故障转移过程应该成为一个常规事件,用于评估和改进灾难恢复过程和准备情况;
6、日益严重的蓄意攻击
互联网正在受到更频繁的,更严重的攻击。从生活中的冰箱,汽车到健身监测器,超过200亿台各种类型的设备连接到互联网,每周还持续增长数百万台设备新连接到互联网上,安全漏洞和漏洞的数量正呈爆炸式增长。网络攻击的违规行为的代价是惊人的,可能会威胁到某些公司的生存。个人觉得如果出现了一个新的网络威胁,那么随着技术的发展,新的防御措施也会产生,但出现了一个新的防御措施,那么可能新的攻击方法又会出现。所以建议用户最好备份多个副本,至少要保留一个“末日”副本,也就是数据和日志文件的原始副本。
四、总结
事件触发因素与大量低概率的根本原因共同促成了IT灾难,所以IT灾难并不是表面上的那么简单。人类在评估低概率事件的影响力方面比较弱,对IT灾难风险的清醒评估至关重要,至于具体采用什么等级的措施或者资金要投入多少,要达到什么程度,可根据不同的预算情况和业务的重要性来实施,但首先要认识到这个问题。