灾难恢复计划是一项重点突出的详细策略,可解决所有类型的运营中断问题。破坏包括自然灾害和人为破坏。自然灾害包括地震、火灾、龙卷风、飓风、洪水和流行病。人为的破坏可能是电网中断、网络攻击等。
虽然不可能预测每种类型的破坏,但良好的灾难规划会尝试涵盖所有最可能发生的情况。实际计划是按灾难类型组织的,并有具体的说明供企业在灾难发生时遵循。
在起草灾难恢复计划时,一个重要的考虑因素是企业尝试恢复的服务的部署方法。本地和云安装具有明显的恢复优势和挑战,灾难恢复计划必须考虑到这些差异。
一、传统灾难恢复
尽管围绕云计算进行了大肆宣传,但本地部署仍有许多充分的理由。
传统的本地部署是从企业的本地物理环境在其自己的基础架构上交付的。本地部署的主要优点是透明度和可控性。一些企业存储极其敏感或受监管的数据,并已决定必须将数据保留在内部,以确保数据得到适当保护并在需要时可用。这种额外的保证需要付出高昂的代价。
企业的基础架构团队负责支持大规模部署所需的所有硬件,包括确保满足容量需求的充足资源以及可用于执行关键数据定期备份的资源。
为确保企业的服务能够从灾难中恢复,每个技术资源都需要冗余,甚至可能需要跨冗余数据中心和地理区域进行部署。如果企业缺乏支持此类冗余的资源,这可能会很困难。
在构建基础设施之前,管理层可能需要进行评估、提案和预算请求,所有这些都需要时间。之后,基础设施的支持和维护以及数据备份过程完全依赖于内部人员。
在灾难中,重建基础设施、恢复数据和为最终用户提供恢复服务所需的时间将非常重要。数据恢复将取决于最近的异地备份,可能是一天或更久以前的备份。灾难发生后,停机时间意味着一切。
二、云容灾
在过去十年中,向云解决方案的迁移有所增加,但在大流行后的恢复期间,这一趋势可能会加快。为满足技术需求而转向云解决方案的企业已将灾难恢复的风险和责任转移给第三方提供商。
迁移到托管基础架构允许企业实施默认情况下可动态扩展、弹性和冗余的服务。许多云服务提供商甚至允许客户根据服务的重要性或风险级别来选择他们的恢复时间。
有两个因素起作用:恢复点目标 (RPO) 和恢复时间目标 (RTO)。RPO 衡量企业愿意冒丢失多少数据的风险,而 RTO 衡量灾难后企业的数据需要多长时间才能运行。
如果数据是关键任务且企业风险承受能力较低,一些提供商会为 RPO 和 RTO 提供近乎实时的恢复。如果风险承受能力更高,那么那些愿意并且能够从一天前的备份中工作的人可以使用更便宜的选择。
云托管解决方案的灾难恢复计划应涉及对供应商合同的审查,以确保恢复 SLA 满足企业的需求。如果有任何与配置数据备份频率或测试相关的客户责任,则应确认和测试这些活动。
一些供应商甚至会同意在定期测试恢复能力期间与您协调。“信任但验证”在这里适用于负责企业最关键的服务或数据的供应商。
三、两者优缺点对比
1.本地灾难恢复
1)优点
- 完全透明和控制。
- 最大限度地减少第三方曝光。
- 数据可以限制在单租户环境、专用网络等
2)缺点
- 资本投资成本较高。
- 预算请求和计划的扩展时间可能很长。
- 基础设施维护成本增加。
- 不保证服务(正常运行时间)或数据丢失。
- 负责内部控制开发和测试。
2.云容灾
1)优点
- 无需硬件投资
- 默认情况下可扩展和冗余
- 基于使用的运营成本
- 可从任何有互联网连接的地方获得服务/不依赖于企业的内部基础设施是否可用
- 合同可强制执行的 SLA
- RTO 和 RPO 是可协商的(从几小时到几秒)
2)缺点
- 安全责任共担
- 透明度和控制力较低
- 依赖于控制的第 3 方证明(SOC 报告)
- 数据监管挑战
四、灾难恢复计划很重要吗?
在疫情大流行的第一年,超过20万家企业关闭。太多的企业对大流行灾难毫无准备。
在《2021 年的主要风险:全球视角》一文中,Protiviti 曾经指出“其实没有什么不可预测的。大流行风险已经出现很长一段时间了,然而,只有数字化投资的公司在疫情来袭时为未来做好了准备。”
灾难将会发生,而可靠的灾难恢复计划意味着业务恢复成功和失败之间的差异。当企业更新 DRP 并尝试预测意外情况时,请考虑将遗留的本地解决方案迁移到云环境的可能性。