过去的几个月中,发生了一些重大的IT故障事件:富国银行的业务停止运营长达一天导致客户无法访问他们的账户;芝加哥铁路公司故障导致60000名乘客滞留;以及由于Gmail和Google Docs发生故障而导致全球各地用户无法访问和使用这些产品。此外,今年2月VFEmail.net所有客户端数据(包括备份)完全丢失。
制定计划
这些事件和类似的IT问题为人们提供了两个重要的信息:
- IT中断可能发生在任何人身上。
- 下一次IT中断造成的损害程度取决于现在的准备情况。
值得注意的是,超过60%的IT中断或“灾难事件”都是由人为错误引起的。那么,企业如何才能减少下一次IT中断对其收入、声誉和客户造成的损害?
首先,确保企业有一个业务连续性计划(BCP),其中包括灾难恢复计划(概述企业将如何处理IT事务)以及保持业务其余部分的计划(例如,如果关键渠道是确保关键人员知道发生了什么、会面地点、定义指挥链等等)。
在这里将概述在IT方面取得成效的四个关键步骤:
1. 定义潜在的灾难情景
对于大多数企业而言,主要有两种IT灾难场景:
- 系统中断,网络或应用程序的某些关键部分出现故障,企业或其服务在一段时间内处于“脱机”状态。这通常是一个相对简单的恢复点,因为企业重新上线运营,受停机影响的事务最少。
- 数据丢失,企业丢失信息、内容或数据(企业自己或其客户)。并不总是可以从数据丢失中恢复,例如在VFEmail.net的黑客事件中,删除了其所有备份副本。
确保企业为灾难做好准备是需要了解这些常见类型的中断的风险状况:例如,系统中断会影响哪些功能?这些功能对企业的业务有多重要?中断是否会导致数据丢失?还有哪些其他事件会导致数据丢失?等等。
此外还要记住,人为错误将是造成这两种灾难的最常见原因(如在芝加哥铁路公司的停机事件中,一名工人在更新服务器期间摔倒在电路板上)。
2. 评估对企业的业务可能造成的损害
这是IT部门和其他领导共同完成的工作。企业的目标是了解如果单个数据块出现故障或各种类型的数据丢失,其业务将受到的影响。
在这些对话中,目的是了解业务关键型应用程序之间的依赖关系(例如,企业知道需要激活支付处理应用程序,但它是否取决于库存应用程序的功能?)阐明停机对用户的影响,并评估每分钟停机对企业的业务的财务影响。
以下是衡量的标准:
- RTO(恢复时间目标),定义企业的业务可以在业务中断之后多长时间而不会造成严重损害。企业的灾难恢复计划应概述通过企业定义的RTO(恢复时间目标)恢复业务运营的策略。
- RPO(恢复点目标),定义数据备份之间的时间长度,而不会显著损害企业和业务运营。企业的业务中断分析将定义企业的RPO(恢复点目标)。因此,如果企业的灾难恢复计划要求从上次已知备份中恢复数据,则RPO(恢复点目标)会定义该备份可接受的时间。
如果企业想再采取其他步骤,请确保评估中包含对停机时间可能造成声誉损害的评估。这很难计算,但它可以成为决策过程中的一个有价值的组成部分。
3. 查看当前的灾难恢复计划
一旦企业了解了自己可以合理承担的停机时间,请查看其当前的灾难恢复计划。如果像大多数企业一样拥有一个灾难恢复计划,但是没有努力去更新或者定期测试它,那么现在是时候改变了。
在查看灾难恢复计划时,请考虑以下事项:
- 它是否反映了企业当前业务的现实情况,包括企业之前的对话中阐述的业务关键型应用的计划?如果没有,就需要更新它。
- 规模合适吗?IT团队非常擅长提出创造性的灾难恢复方法。这部分是因为这些系统是他们创建的,他们非常适应所有可能出错的方式。但精心设计的灾难恢复通常不仅仅是企业的需求,而且比其能够承受的成本更高。如果企业确定可以承受三天的停机时间,并且当前的灾难恢复计划让其在六小时内重新上线运营,则需要进行一些更改。
- 企业测试过吗?制定了许多灾难恢复计划来检查选项或满足监管要求。但如果企业没有测试自己的计划,那么在真正的灾难中对企业毫无价值。企业无法知道它是否会实际阻止意外中断和数据丢失可能导致的收入损失和声誉损害。
4. 更新并测试企业灾难恢复计划
大多数企业不会定期更新和测试他们的灾难恢复计划,这是一个很大的问题,因为过时的灾难恢复计划在发生真正灾难时或多或少地变得毫无价值。
在进行更改时,请执行以下步骤:
- 指派专人负责灾难恢复和测试。这意味着如果出现错误,就会有人负责,这会大大增加测试完成的机会。
- 确保企业管理层与制定灾难恢复计划和进行定期压力测试的重要性保持一致。这对于获得非IT同事所需的参与至关重要。
- 包括“灾难”的定义。管理人员知道何时以及如何启动灾难恢复计划,停机一小时后?一天?也可以确定联系人,如果不在,还有哪个人可以处理。
- 制定防灾规则。之前提到的芝加哥铁路公司灾难发生的部分原因是因为该公司在高峰时段对服务器进行了升级。这是一个令人难以置信的却可以避免的错误:如果那名工人没有在半夜摔倒在电路板上,就不会有那么多客户受到影响。
- 包括沟通计划。在灾难期间(“发生的事情”)和灾难之后(“发生的事情和正在做的事情以提高未来的绩效”)与利益相关者保持透明,对于减轻灾难可能造成的声誉损害将有很大的帮助。
有效的灾难恢复就是细节
虽然每个企业都应该拥有并测试灾难恢复计划,但企业能够满足他们的需求或应对灾难的方式并不都是相同的。对于任何企业来说,灾难恢复应该基于两个方面:风险状况和从事件中恢复的能力。
为了确保企业的下一次IT中断对其客户、收入、声誉造成尽可能小的损害,需要花费时间了解可能出现问题的具体情况以及这些问题将如何影响其客户,并制定灾难恢复计划以尽量减少这种影响。