大家都很重视数据、重视自己的业务系统,也投入了很多做灾备系统的建设,在建设中对产品的选项也很重视,但是在完成建设后却错以为大功告成了。忽略了灾备演练这个重要环节。
现在很多灾备公司都不太重视灾备的演练,很多一年也没有做到一次,不能完全发现灾备中心的缺陷。
容灾系统的业务连续性是企业的关键业务在灾难发生时的应对能力和恢复能力,即通过尽可能快速的、全面的企业业务恢复运作,将因灾难造成的损失降低到最小程度。由于在远程网络传输的实时性能力以及对现有生产系统不产生负面压力的要求等多种综合因素的制约,目前各类技术实现手段均是以一定的RPO和RTO作为灾难备份的指标实现,而零丢失或零间断基本上都不具有技术基础。由于实现零间断采用全同步方式造成的高额的支出和系统运行损害使得零间断或零丢失都不具有可行性。
灾备演练是验证灾难发生时,业务系统能否有效联动切换的极为重要的手段。没有灾备的演练计划和手段,往往无法预知灾难发生时生产中心和灾备中心的数据一致性,也无法预知灾备中心是否具有了业务接管的一切必要条件。以往,由于一些企业采用的容灾技术实现不具有灾备演练的技术手段,出现了一些企业在故障发生时,仍然无法启动后援系统进行业务的接管的现象,这些企业不得不仍然采用传统的备份恢复方式进行耗时的数据恢复,不仅出现了大量的数据丢失而且,动辄数十小时的业务停顿,也使得灾备系统的设计者狼狈不堪,教训十分深刻。因此,选择有效的灾备技术手段的同时,决不能忽略灾备演练的技术手段的提供,在具有多种技术手段的基础上,制定灾备系统的演练和测试计划。灾备的演练计划有以下几种方式:
***:计划性测试/演练
灾难恢复计划要求建立业务连续性管理团队,不仅涉及IT部门,而且关联众多业务部门,为减少演练对于生产的影响,可以将恢复计划细化到很小的单位或者模块,逐个应用进行接管验证。
当模块都成功通过测试后,测试的范围可以扩充到更多的模块。
第二:突发演练
在灾备系统全面完成并且制定了全面的恢复计划后,可以在进行了一定备份的情况下安排突发性的测试。当然,业务连续性管理小组需要确保业务不会因为突发性测试造成不可接受的损失和业务中断。
演练对于提高团队的恢复经验和协作能力以及确保灾难恢复计划的可行性是至关重要的。所有的演练结果都要进行评估、记录、并且生成到容灾流程里。
另外:有哪些要预先考虑的因素?
答:容灾体系需要现有的基础设施状况,如现有异地传输网络的状况、现有主机系统和存储系统状况、现有生产环境的变动能力等等,体现在考虑因素上就是以下几点:
1.是否是低带宽特征,如果是则需要考虑具有带宽优化的技术实现
2.是否是异构系统?如果是则需要考虑异构的灾备体系
3.成本。权衡和比较不同灾备实现的成本,这里会产生很大的差异。
4.灾备系统是否对于生产系统产生很大的变动?有时候,这往往是致命的。
5.灾难的防御范围。除了人们已知的各类自然灾害、设备故障外,是否需要防范人为的数据篡改或丢失?如果是,所采用的技术就需要更为全面、功能覆盖面更为广泛。
6.工程实施过程。实施是否简单、维护过程是否简单往往决定了系统今后的维护和运营成本和对生产系统的影响。