灾难恢复计划如何使企业免受业务中断？-灾难恢复计划

您企业的业务通过异步备份便能够获得支持，抑或还是必须通过异地服务器的更新，才能够始终保持业务的正常运行呢。

异步与同步;灾难恢复与主动的架构(active architecture);主动与被动。客观上而言，这几者之间其实并没有孰优孰劣之分。对您企业来说，最适合的一套方案的选择将主要取决于您企业业务对于服务器发生停机中断等事故的容忍程度。

业界的安全专家指出，在预期可能发生停机中断事故的情况下，个别公司所选择的如何保存其数据的具体方式，将取决于他们的业务在停机中断恢复之前所能够保持继续运行的时间有多久。您所在的公司需要怎样的可用性呢?如果贵公司的主营业务是一个电子商务类的网站，那么，哪怕仅仅只是几分钟的停机离线中断就能造成天文数字般的经济损失?投资于积极主动的系统保障的成本开销较之因停机中断而造成的业务潜在损失之间孰轻孰重，您又会如何决择呢?

“这并不是一个比另一个更有效率的比较。更为重要的是要正视您企业究竟想要解决什么方面的需求。例如，购买一辆法拉利固然能够完成运输食品杂货的需求，但杀鸡真的焉用牛刀?”Commvault公司解决方案营销和技术联盟高级总监Don Foster表示说。

在主动的体系架构中，通常是由一组非现场的服务器与现场服务器同步的。这样，就可以确保在发生一台服务器处于脱机状态的灾难事件时不会发生停机事故。其可以配置为故障的自动转移。在此设置中，仅仅只需要较少的硬件，因为两处站点上的所有系统都正在使用中，而在灾难恢复的情况下，则只有一半的硬件被使用。如果您企业拥有48个内核的灾难恢复，那么您总计将拥有96个内核，并且只能使用48个内核。在主动的模式下，您企业可以规模化缩小为32 x 2的64个内核，全部64个处于活跃状态。

在灾难恢复情况下，容量是一个完全冗余的系统——所有的硬件和软件都已经准备就绪，但是完全闲置。在***处站点发生故障失败之前，这一容量根本不会被使用，但是在某些特定时候会被复制。

Bluelock公司的高级云解决方案架构师Erin Swike解释说：“主动的灾难恢复是DR世界的独角兽。这一理念是，如果您企业的生产站点发生故障，则您的灾难恢复站点将自动开始向用户提供应用程序，而绝不会造成那怕单个数据包的丢失，这绝对可以说是任何CIO或系统工程师们的必杀技。

“对于我们绝大多数人来说，这听起来仍然像是童话般的东西。因此，请忘记接近数据中心处理站点和网络延迟等明显的要素吧;这其中所涉及到的一个最重要的因素是您的应用程序是否被编写为能够支持这种类型的场景情况。”她说，除非从一开始就秉承着这一理念进行应用程序的编写，否则支持就不可能实现。

在主动模式下，软件成本较高，因为在主动模式下运行的任何系统都必须具有软件许可授权。当系统处于灾难恢复模式时，第二个系统便不需要为数据库内核的许可授权付费，例如，因为一次只有一款设备处于活动状态。两个系统保持同步的事实根本不会影响到成本。

在同步复制中，两台服务器之间需要有可靠的网络连接。此外，还将需要安排额外的人手来不断管理另一处的站点。

异步复制的消极面包括会在停机和服务器上一次更新之间丢失一些数据。但这也可以设置为故障的自动转移。

Webscale Networks公司的产品副总裁Anand Hariharan表示，这基本上是服务器的热备份、温备份、冷备份(Hot/Warm/Cold Backup)的概念。其利弊可以从两个方面进行分析，即：服务水平协议和成本。恢复点目标(RPO)和恢复时间目标(RTO)定义了供应商将提供的SLA，以便在发生停机时，通知用户可接受的数据可能丢失的时间长度，以及服务恢复的速度。

“当然，通过热备份或主动架构，停机时间为零，数据***复制，因此，从SLA的角度来看，这是一个非常有利的途径，因为其确保了关键数据不会丢失，而且关键的应用程序也将继续正常运行。”Hariharan表示说。“这方面所存在的缺点当然是成本。维护两款始终运行的系统基本上会让成本翻倍，无论这些成本是与在私有数据中心中运行的副本体系架构，支付托管托管服务提供商在非现场位置执行相同的任务相关，还是在云中运行双倍实例的费用成本开销相关。在其中一些情况下，根据部署规模的不同，可能还有人工成本方面的考虑，需要额外的技术人员来管理两倍的系统也会导致成本急剧增加。”

考虑到平均每分钟高达7,900美元(数据来源：Ponemon Institute)的停机时间成本，这无疑将对任何企业短期的业务利润及长期的声誉都会造成巨大的影响。

其他方面的成本还包括托管站点的服务器。这可以通过向众多用户分摊基础架构成本来节省资金带来巨大的吸引力，但是，根据ScaleArc白皮书的说法：仔细分析，就会发现这些成本节省根本没能实现。托管服务供应商仍然会向企业客户收取任何未使用的资源的费用，包括可能在未来某一天才被激活完全使用的资源。然而，企业不能减少专用于辅助站点的资源量，因为来自主服务器的所有信息都必须备份到辅助站点。

ScaleArc的报告还指出，就像托管服务一样，公有云解决方案由于其规模经济而显得很有吸引力。然而，由于隐私方面的问题，担心安全问题的企业组织(例如银行和政府机构)仍然避开采用云计算。另外，云系统可能会有延迟，造成对于应用程序性能的影响超出可接受的水平。而且，云计算的经济性并不总是其表面上所看起来那样。在全面运营的情况下，云计算的支出通常比企业自有和运营自己的基础设施时的开支要高。

ScaleArc认为，主动架构的维护成本较低，因为这些任务可以在工作时间内完成，而无需在半夜安排机组人员。其所需要的工作人员的数量更少，因为企业组织可以在维护期间保持应用程序的运行，所以不需要开发人员和其他应用程序专家的参与。

ScaleArc写道：“成本仅增加20%，企业客户将享有多出33%的系统容量，同时还能降低停机时间，降低运营成本，提高资产利用率，并可能带来更高的总营收。”

企业客户可能不了解计算体系架构，但他们确实希望他们的应用程序和数据始终保持可用。任何无法提供100%正常运行时间的供应商都有可能失去客户和营收。

OneLogin公司的高级总监Al Sargent从财务角度分析说，***企业在IT预算上的花费会让一般企业相形见绌。一项研究表明，企业在IT方面的开销占到其营收的3%至7%。他表示：“转向主动的架构可能会将IT预算增加一个百分点，但却可以防止可能导致的高达百分之几的营收下降的停机中断。

一些基于云的SaaS解决方案降低了这些成本方面的问题，可以在两个站点之间自动维护一个通用的管理环境。Hariharan说，云可以实现快速的横向扩展，因此您企业可以部署一个缩小的(更小的占地面积)故障转移基础设施，在发生灾难事件时几乎可以立即恢复应用程序，从而实现更好的SLA。

Foster表示说，这两种情况都适用于企业的灾难恢复策略。许多应用程序甚至包括基础设施(企业空间中的存储阵列通过可跨数据中心的单个命名空间创建主动网格)已经开发了这种技术，以使企业客户可以更容易的制定业务连续性计划，并实现基础设施的停机恢复。

“问题是维护和运行这些基础设施的成本。如果一款应用程序或服务要求真正成为始终在线的系统，那么企业将花费所需的资金来确保五个九的可用性。”他说。

具有这方面需求的大多数关键应用程序都具有内置的故障转移机制，以便在发生故障时二级或三级系统可以恢复。对于服务器来说，集群也已经存在了很长一段时间，而且随着技术已经进入了基础设施服务的范畴，可用性所提供的便利性也得到了极大的提高，只是需要付出成本代价。

他说，虽然成本并不是其唯一的缺点。“主动的恢复解决方案并不能解决用户的人为错误。如果发生这种类型的停机中断，则需要有一些跟踪时间点来数据恢复的一致性。” Foster说。

市场调研机构451 Research的高级存储分析师Steven Hill表示：“可能有许多关键任务应用程序值得采用主动冗余保护，诀窍在于确定那些应用程序是值得花费的。重要的是要记住，一套好灾难恢复/业务连续性计划要求对企业关键业务的优先事项进行广泛的评估;支持这些因为所需的人员、数据和应用程序;以及替代它们的备选方案的成本，所有这些成本/效益分析权衡都是在发生损失风险和重大业务中断可能性的情况下进行的。

灾难恢复更具成本效益，其通常是数据中断的重点，可以作为内置的主动恢复服务的补充，Foster指出。基础架构可以通过实时和版本化的时间点参考来跟踪数据副本变得高度可用，以解决可能出现的任何中断问题。

ScaleArc的***执行官Justin Barney认为，对主动架构成本的评估必须考虑到潜在的停机损失。“主动操作确实会花费一定的费用 ——约20%的硬件和软件成本。但是这些额外的成本不包括对于造成损失的来源的抵消，例如由于避免了停机而避免的营收损失。总的来说，主动操作只适用于无法承受停机时间的企业。

Barney表示，随着持续可用性的需求开始逐渐主导几乎每个行业，主动的操作运营显然提供了***的组合优势。

据Barney称，有新的数据显示，备份系统和企业流程最依赖的确保业务的连续性/灾难恢复实际上可能不利于防止重大的停机中断。 “这在现在很重要，因为这些灾难恢复系统已经不能满足必须实现企业组织持续可用的需求了。”

他说：“今天的企业负担不起停机失败的损失，故而在脱机时从故障失败中恢复过来并不是一种选择。”

Foster不同意这种说法。“如果您企业仍然像十多年前那样运行备份和恢复以及灾难恢复，那么，这样的说法可能是正确的，但现实情况是，随着基础架构和体系架构的成熟和变化，企业客户正在对他们如何执行灾难恢复和备份进行现代化改造。当他们不这样做时，由于没有整合的方式来进行保护和灾难恢复决策，停机中断可能会发生。”

另外，主服务器的正常工作流程必须重定向到辅助服务器，至少暂时成为新的主服务器。这种重定向可能需要大量的人工手动配置，需要两个IT团队(每处站点位置一个团队)加班工作，以启用和排除交换机故障。类似的重新配置适用于DNS、网络、复制拓扑和其他基础设施元素。测试需求是巨大的，必须安排额外的IT人员在辅助设施中就位管理，而原始的IT团队仍然将会被迫停止尝试将主要设施恢复到在线状态。

“当然，随着我们看到‘软件正在主导整个世界’和‘每家公司都在成为软件公司’的大趋势，只会有越来越少的企业可以接受停机中断。灾难恢复通常意味着至少几分钟的停机时间，当然，因为您企业突然间将一款闲置的系统联机，可能无法顺利启动。而主动架构最适合那些不能容忍停机中断的企业组织。”Barney说。

Sungard AS的产品管理副总裁Joseph George表示，他不会仅仅从效率角度来看待这两种架构之间的争论，因为决定企业弹性层级选择的***决定因素是基于企业是否能够负担得起的。“显然，如果成本不是唯一一个因素，每家企业都会有高可用性的系统。但他们通常只能为大多数关键任务的系统和应用程序提供(并且需要)这一级别的可用性。他说。

企业将他们的应用程序进行分层，以帮助管理风险与投资之间的经济平衡，对于减轻风险来说是至关重要的。应用程序分层以及映射它们之间的相互依赖关系，可以实现***的恢复顺序排序，并允许基于应用程序停机中断和数据丢失业务所造成的影响水平，来确定***成本效益的可用性程序，他补充说。

Swike说，大多数企业并不需要特别实施主动的灾难恢复。温灾难恢复就能够满足他们的需求。利用站点之间的适当带宽，就可以实现几秒钟的RPO和几分到几小时的RTO技术。“技术只是这其中的一部分，灾难的过程必须有严格的规定和时间。服务器的复制是一个很好的步骤，但是如果您企业不经常进行测试的话，您怎么知道其到底是否奏效呢?

她说，对于很多企业来说，灾难恢复在他们企业排名前10位的优先级事项中仅排名第11位。“这绝不意味着他们不关心灾难恢复。只是日常问题和生产项目往往是排在最前面的。”

Coalfire实验室的副总裁Mike Weber说，从根本上说，坚实的备份战略的关键取决于企业的业务需求和关键任务的系统。有许多分层模型会需要与关键数据通信，在几分钟内需要RTO测量，需要流式备份或复制到冗余(但不是高可用性)系统，通过非关键数据可以在几天内消化恢复的影响。

“这两者之间以及各个层面都需要不同的策略来实现业务连续性和灾难恢复目标。有几十种方法可以实现这些目标。” Weber说。

他曾多次表示，Coalfire实验室发现备份或灾难恢复站点并没有与生产站点相同的安全保护和控制。渗透测试发现，当系统使用各种备份或冗余容量时，预算限制通常会导致缺乏相同的网络安全控制措施来保护生产环境。