IT 系统灾难恢复计划的12大要素-灾难恢复计划

数字化时代，企业需要更加复杂的 IT 基础架构以确保业务的正常开展。因此，IT 基础架构一旦出现问题就有可能给企业带来巨大的损失，甚至使企业消失。因此，现代企业中，IT 灾害仍然是对生产过程最大的威胁。

什么是灾难？

灾难是具有挑战性的麻烦，它能够立即让可用的人力、IT、财务和其他资源的能力不堪重负，并导致宝贵资产（例如文档、知识产权对象、数据或硬件）的重大损失。

在大多数情况下，灾难是导致非典型威胁的突然事件链，一旦灾难开始，这些威胁就很难或不可能停止。根据灾难的类型，企业必须制定严格的预警方案。

灾难主要有三种类型：

1）自然灾害：当听到“灾难”一词时，大部分人可能会想到的第一件事就是自然灾害。不同类型的自然灾害包括洪水、地震、森林火灾、异常高温、强雪、暴雨、飓风和龙卷风以及海洋风暴。

2）技术和人为灾害：技术灾难是与技术基础设施故障、人为错误或邪恶意志有关的任何事物，包括软件中断、发电故障等在内的任何问题。

3）混合灾害：这些灾难包括全球软件中断、关键硬件故障、停电和任何电力供应问题、恶意软件（包括勒索软件）、电信问题（包括网络隔离）、军事冲突、恐怖主义事件、大坝故障、化学事件。

要说明的是，第三类灾害包括了将自然和技术因素的特征结合在一起的混合灾害。例如，大坝故障可能导致洪水，导致整个地区或国家的停电和通信问题。

什么是灾难恢复？

灾难恢复（DR）是在发生全球破坏性事件后应采取的一组操作（方法），用于恢复和还原操作。主要的灾难恢复活动侧重于重新获得对数据、硬件、软件、网络设备、连接和电源的访问权限。灾难恢复行动还可以涵盖重建后勤、搬迁工作人员和购买办公设备，以防资产损坏或毁坏。

若要创建灾难恢复计划，需要考虑在以下时间段内要完成的操作序列：

1）灾难发生前（构建、维护和测试 DR 系统和策略）。

2）在灾难期间（采取即时响应措施以避免或减轻资产损失）。

3）灾后（应用灾备系统恢复运营，联系客户、合作伙伴，分析损失和恢复效率）。

灾难恢复计划中包含的12大要素

1）业务影响分析和风险评估数据

在此步骤中，主要研究对组织造成的典型和最危险威胁和漏洞。有了这些知识，能够计算特定灾难发生的概率，衡量对生产的潜在影响，并更加轻松地实施合适的灾难恢复解决方案。

2）恢复目标：定义的 RPO 和 RTO

RPO 恢复点目标：该参数定义在不对生产产生重大影响的情况下可以丢失的数据量。

RTO 恢复时间目标：即企业可以容忍的最长停机时间，因此也是完成恢复工作流的最长时间。

3）职责分配

建立一个了解每个成员在发生灾难时的负责的主要工作的团队，是高效灾难恢复计划的必备组成部分。组建一个特殊的灾难恢复团队，为每位员工分配特定角色，并培训他们在实际灾难发生之前履行自己的角色，这是在需要实际行动来保存企业资产和生产时避免混淆和缺失链接的方法。

4）灾难恢复站点创建

任何规模或性质的灾难都可能严重损坏企业主服务器和生产数据，使恢复运营变得不可能或非常耗时。在这种情况下，具有关键工作负载副本的 DR 站点是将 RTO 降至最低并在紧急情况期间和之后继续向企业客户端提供服务的最佳选择。

5）故障恢复准备

故障恢复是在主数据中心再次运行时，将工作负载返回到主站点的过程，在规划灾难恢复时可能会忽略。

尽管如此，事先建立故障恢复顺序，有助于使整个过程更加顺畅，并避免可能发生的轻微数据丢失。此外，灾难恢复站点通常不是为长时间支持基础结构的功能而设计的。

6）关键文档和资产的远程存储

如今，即使是小型企业也会生成和处理大量关键数据。丢失硬拷贝或数字文档可能会使其恢复变得耗时、昂贵甚至不可能。

因此，准备远程存储（例如，用于数字文档的 VPS 云存储和用于硬拷贝资产的受保护物理存储）是确保在发生灾难时重要数据可访问性的可靠选择。

7）注明设备要求

此 DR 计划需要审核支持企业 IT 基础结构正常运行的节点。这包括计算机、物理服务器、网络路由器、硬盘驱动器、基于云的服务器托管设备等。

这些知识使您能够查看在灾难发生后恢复 IT 环境的原始状态所需的元素。此外，企业还可以查看至少支持任务关键型工作负载所需的设备列表，并确保在主要资源不可用时生产连续性。

8）通信通道定义

确保为员工、管理层和灾难恢复团队提供稳定可靠的内部通信系统。设置通信通道的使用顺序，以处理灾难发生后主服务器和内部网络不可用的情况。

9）概述响应程序

在灾难恢复计划中，最初的几个小时至关重要。创建有关如何执行 DR 活动、监视和执行流程、故障转移序列、系统恢复验证等的分步说明。尽管采取了所有预防措施，但如果生产中心仍然发生灾难，对特定事件的集中和快速响应可以帮助减轻损害。

10）快速报告事件

在灾难发生并中断生产后，不仅应通知灾难恢复团队成员。您还需要通知相关人员，包括营销团队、第三方供应商、合作伙伴和客户。

作为灾难恢复计划的一部分，创建大纲和脚本，向员工展示如何通知每个关键组其关注的问题。此外，事先创建的基本新闻稿可以帮助您避免在实际事件中浪费时间。

11）灾难恢复计划测试和调整

成功的企业会随着时间的推移而变化和扩展，其灾难恢复计划应根据相关需求和恢复目标进行调整。完成计划后立即对其进行测试，并在每次引入更改时执行其他测试。因此，企业可以衡量灾难恢复计划的效率并确保资产的可恢复性。

12）应用最佳灾难恢复策略

灾难恢复策略可以在DIY（自己动手）的基础上实施，也可以委托给第三方供应商。前一种选择是为了经济而牺牲可靠性的方式，而后者可能更昂贵但更有效。

灾难恢复策略的选择完全取决于企业的功能，包括团队规模、IT 基础架构复杂性、预算、风险因素和所需的可靠性等。

总结

灾难是突然的破坏性事件，可能使组织无法运行。自然、人为和混合灾害具有不同级别的可预测性，但在组织级别上几乎无法预防。确保组织安全的唯一方法是根据组织的特定需求创建可靠的灾难恢复计划。

原文出处：A Guide on Disaster Recovery for IT Systems | HackerNoon

原文作者：alextray