企业需要更新过时的灾难恢复计划-51CTO.COM

由于灾难恢复计划可能很快就会过时，因此许多企业现在需要使其方法实现现代化，并要用更多自动化技术。

作为一家社区银行的灾难恢复和信息安全负责人，James Hinks对灾难恢复有一些心得。他带领的团队正在为伊利诺伊州的First Mid银行信托公司(First Mid Bank&Trust)提高灾难恢复基础设施的自动化程度，并将整合更多的云计算服务。

[[345903]]

Hinks说，“我们是一家社区银行，因此必须为客户着想。这需要很高的服务水平协议(SLA)，并且在发生灾难事件的情况下，我们必须提供更加安全的灾难恢复设置。”

为了继续提供客户期望的服务水平，Hinks带领的团队推动银行灾难恢复方法的现代化是有意义的。对大多数企业来说，这并不是应该重新审视灾难恢复计划和技术的问题，而是时间的问题。

标准普尔全球分公司451 Research公司的高级分析师Steven Hill表示：“随着混合技术的应用，企业IT的发展比以往任何时候都快，而且灾难恢复计划过时的时间实际上并不需要很长时间。系统、应用程序、人员总是在不断变化，因此制定一个良好的计划需要不断反映这些变化，并进行调整以满足数据治理和行业合规性不断发展的需求。”

对于大多数企业来说，自从他们建立了原始的灾难恢复计划和技术以来，可能已经发生了很多变化。首先，虚拟化和云计算时代已将中断的容忍度降低到几乎为零。根据Forrester Research公司和Disaster Recovery Journal公司最近的一项研究，提高灾难恢复能力的主要原因是保持基础设施全天候在线运营。

另一个重要因素是从关注组件故障到关注服务连续性的转变。与传统的灾难恢复方法不同，当今灾难恢复方法要求每个组件都具有备份和恢复功能，而更多的是企业要了解关键业务服务。

德勤会计师事务所总经理兼技术弹性实践部门的负责人Pete Renneker说：“企业需要了解这些服务的依赖性，才能确定其是否在整个过程中提供了适当的弹性水平。例如，企业是否需要证明能够满足50个应用程序的4小时恢复时间目标(RTO)，还是更重要的是选择一个关键业务流程并在其中提高恢复能力?”

Renneker还指出，网络安全在灾难恢复中的重要性与日俱增。虽然传统的灾难恢复侧重于最大限度地提高系统、应用程序和数据的可用性，但在高度复制和冗余的环境中存在恶意软件可能会导致真正的问题。

多年来，人们一直认为，如果有适当的灾难恢复设置，则应该能够从网络事件中恢复。企业的运营环境越关键，就越有可能将主动复制用作其主要恢复功能。反过来，这意味着事件将对运营环境造成更大的负面影响。

Renneker说：“企业一直将灾难恢复视为只是可用性的挑战，但是我们看到基于完整性的事件可以使备份功能成为攻击武器，并最终使系统瘫痪。”

情况越来越糟，而不是好转

应对这些新的情况(例如对宕机时间容忍度很低和网络威胁增加)需要一种新的方法。通过从场景规划的角度考虑技术弹性，企业将能够更好地根据风险和影响确定优先级。而关注最坏的情况对于不同的企业来说，这些可能会有所不同。

Renneker说，“企业最关心的场景是什么?当前的程序如何使人们对灾难恢复更有信心?如果不能从专注于单一场景的传统程序转变为提供始终在线体验的完全冗余的弹性网络，那么需要考虑如何改变流程和程序。”

例如，如果大多数具有高影响力的方案都围绕着网络威胁，则可以考虑将网络恢复功能引入灾难恢复基础设施中。这种技术通常将关键数据存储在一个独立的安全存储库中，该存储库以不可变形式处于脱机状态，并受到监视和扫描，以查找数据的任何潜在更改。Renneker解释说，尽管恶意软件仍然有可能进入环境，但这种类型的“网络保险库”即使在恶意软件提供有效载荷的情况下也可以防止窃取数据或遭到破坏。

一旦灾难事件结束，并且灾难恢复团队了解其运营环境中引入了什么内容，团队就可以访问保险库，将数据清理到经过正常状态，然后恢复生产。

对于当今的许多企业而言，更加紧迫的情况可能集中在当前冠状病毒疫情所引起的在家工作模式上。例如，许多企业已经转向虚拟桌面基础设施(VDI)之类的技术，以使员工能够在家中工作。如果这对企业来说是新技术，那么这些虚拟桌面基础设施(VDI)设置可能会带来风险。如果虚拟桌面基础设施(VDI)实例成为单点故障，则虚拟桌面基础设施(VDI)出现故障或遭受服务器攻击时，将会导致企业的员工无法工作。

Forrester公司基础设施和运营高级分析师Naveen Chhabra表示，这些事情使得审查现有的业务和IT风险比以往任何时候都更加重要。每次对其进行审核时，都必须对灾难恢复功能进行修订，以符合新的风险或现有风险的形式和方式的变化。

Hinks对此表示认同，并认为管理灾难恢复本质上是技术风险管理。他说，“我有一个计划，在这个计划中，我们有‘X’美元来降低风险，以实现企业的内部服务等级协议(SLA)、恢复点目标RPO()和恢复时间目标(RTO)。”

对于最重要的场景进行规划，同样重要的是使灾难恢复和生产环境保持同步。Chhabra指出，大多数企业都无法做到这一点。

他解释说：“假设企业更新了Oracle部署。在通常情况下，看到这些更改仅应用于主站点，而不是灾难恢复站点。这可能是失败的原因，因为除非源站点和目标站点同步，否则即使恢复成功，灾难恢复也需要更长的时间。”

Chhabra建议说，“企业在每次进行重大更改时都进行同步，而不是在月末使其运营环境同步。而不匹配一直是问题的根源。”

在这些情况下，自动化可以发挥很大作用。在最基本的级别上，混合云的固有自动化功能可以真正提高灾难响应能力和对策略的遵守。混合云方法还可以支持编排。最新一代的云原生应用程序和工具通常旨在支持自动化，并提供可跨越许多云计算服务的基于策略的通用管理。

最后，自动化是测试的重要组成部分，而某些企业根本做不到。根据一份调查报告，27%的企业每年测试一次灾难恢复计划或不到一次。

频繁测试的好处

对于First Mid银行信托公司来说，测试至关重要。Hinks说：“我们非常重视灾难恢复测试，我们认为这应该像预定的任务一样运行，每个月或每季度都要运行不同的场景。如果企业的灾难恢复测试成功率达到100%，则说明没有进行足够的测试，或者没有在足够多的场景进行测试。”

考虑到企业经历的变化，频繁的测试比以往任何时候都重要。Chhabra说：“每次在源环境中进行重大更改时，都必须规划更新恢复站点，然后再进行测试。假设企业要从VMware 6.2升级到6.5。当规划一个运行手册时，该手册会考虑较早的版本，由于VMware在其最新版本中实现了某些功能的方式，该版本现在可能已过时。这使得验证至关重要。”

与频繁测试一样重要，确保测试正确的东西也很重要。传统上，企业一直专注于测试应用程序、服务器、存储阵列等。如今，从组件级测试转向测试应用程序之间的相互依赖性更有意义。

Renneker建议说：“朝着生态系统的测试迈进，也许可以从测试网络转移到具有多种场景的实时网络测试。”

最后，企业重新评估参与灾难恢复规划和执行的人员。只专注于IT或只专注于业务方面都是一个很大的错误。例如，企业可能具有不再受支持但对其环境仍然至关重要的现有应用程序或基础设施。这是一种风险，需要规划与该风险相对应的灾难恢复功能。如果企业尚未为原有应用程序或基础设施计划迁移或恢复基础设施，则不会使灾难恢复投资适应业务或IT风险。Chhabra指出，如果企业的恢复能力与该风险不符，则可能是投资过多或投资不足。