为什么会发生IT灾难？-为什么会发生it灾难呢

一、概述

IT灾难事件大家都不陌生，也是老生常谈了，但为什么会发生IT灾难事件呢?深入来看其实包含两个方面，即触发因素和根本原因。触发因素是触发初始事件或异常情况，根本原因是把最初的事件变成灾难的原因，它们通常与无法在合理的时间(可容忍的RTO时间)内从事件中成功恢复有关，而且灾难并非总是如人们所料而发生。

[[418555]]

二、IT灾难的触发因素

正常数据中心运营面临的典型IT灾难触发因素总结包括以下方面：

1、机房遭遇渗水或漏水事故;

2、停电相关事件，如短路、闪电或中央断电;

3、机房冷却系统故障;

4、火灾，通常由于过热，短路或电子元件故障产生;

5、人为错误或缺乏使用技巧，这种情况有时代价高昂;

6、软件故障，程序员可能会犯错;

7、数据中心和外部的通信故障，有情况发生时，延误了处理;

8、地震、台风、洪水，山火等自然灾害，全球变暖，极端气候会增多;

9、机器设备本身硬件故障;

10、错误冗余，也就是冗余在关键时刻没起到作用;

11、蓄意的网络攻击，如黑客或者勒索软件等;

12、网络病毒感染;

13、地区社会暴乱或者战乱;

14、其他无法预料的突发事件。

三、IT灾难的根本原因

IT灾难的根本原因也就是把我上面提到的这些触发因素演变成真正IT灾难的原因，如果保护和预防措施很到位的话，那就不能称得上是真正的灾难了，因为可以恢复，或者把损失降到可以接受的范围内。那么相反一旦发生IT灾难，如果没有做好相应的保护机制和措施，最不好评估的损失就是数据的损失，因为绝大部分数据一旦丢失是不可再生的。

这里着重讨论一下，在许多情况下，虽然有诸多的保护措施，但是有些措施还是有不确定性，也就是不能确保在灾难发生时一定会起作用。例如以下情况：

1、不间断电源

有一种情况，在电源故障后，人们才发现UPS电池耗尽或UPS单元之间的电源平衡不正确，结果其中一个UPS单元过载并发生故障，导致与其相连的系统瘫痪;

2、防火隔离保护

只有在真正发生火灾的情况下，人们才能知道这个系统效果有多大。如果只有一个水管，一个电缆隧道或一个冷却隧道没有很好地隔离，那么火灾或不可接受的高温很可能会蔓延到相邻的房间;

3、灭火系统

除非在真实的环境中进行试验，否则人们不会知道是否有气体泄漏或系统故障;

4、错误冗余

由于配置错误，可能有些冗余保护起不到真正的冗余作用。根据我们的经验，这通常适用于通信交换机，SAN控制器和某些存储系统。可能只有当其中一个系统出现故障时，组织才会发现高可用配置不正确，并发生应用程序中断;

5、异地灾备间飞行数据丢失问题

在异地灾备中，故障转移到远程位置是灾难恢复战略的一个关键部分。然而启动故障转移的最大障碍是两个站点之间数据完整的不确定性。这种不确定性的原因是生产站点和恢复站点之间传输的数据不一致。一个站点上的灾难需要能够在一个远程位置进行恢复，即远离主站点的物理实际空间。确保远程恢复的一个主要问题是确保飞行中的数据完整且一致。那么何为飞行中的数据丢失呢?灾难发生后生产系统可能已提交数据更改，但数据可能未到达恢复站点，这就是飞行中的数据丢失，如果能确保飞行中的数据零丢失，能使您能够频繁地进行故障切换和故障恢复。测试故障转移过程应该成为一个常规事件，用于评估和改进灾难恢复过程和准备情况;

6、日益严重的蓄意攻击

互联网正在受到更频繁的，更严重的攻击。从生活中的冰箱，汽车到健身监测器，超过200亿台各种类型的设备连接到互联网，每周还持续增长数百万台设备新连接到互联网上，安全漏洞和漏洞的数量正呈爆炸式增长。网络攻击的违规行为的代价是惊人的，可能会威胁到某些公司的生存。个人觉得如果出现了一个新的网络威胁，那么随着技术的发展，新的防御措施也会产生，但出现了一个新的防御措施，那么可能新的攻击方法又会出现。所以建议用户最好备份多个副本，至少要保留一个“末日”副本，也就是数据和日志文件的原始副本。

四、总结

事件触发因素与大量低概率的根本原因共同促成了IT灾难，所以IT灾难并不是表面上的那么简单。人类在评估低概率事件的影响力方面比较弱，对IT灾难风险的清醒评估至关重要，至于具体采用什么等级的措施或者资金要投入多少，要达到什么程度，可根据不同的预算情况和业务的重要性来实施，但首先要认识到这个问题。