企业备份系统的灾难准备程度如何?-企业备份难题

在企业的运营中，遭遇一些失败和困难是不可避免的，采用更新的复杂系统也会遇到无法预料的事件。而企业可以做的就是尽可能地减轻这些事件的损害。

灾难准备的一个策略是事件响应——建立程序以尽快解决事件并恢复服务;另一个策略是通过减少单点失败等策略来减少失败的机会。以下将讨论第三种策略：在出现严重问题时，使用备份系统和冗余来快速恢复功能。

拥有备份系统可以让企业高枕无忧：无论出现什么问题，只需切换到备份系统一段时间，然后一切都将恢复，是这样吗?而灾难来临时，真的会这么顺利吗?本文将通过以下几点帮助企业确保备份系统在最需要的时候能够按预期运行：

许多企业对其数据和基础设施都采取了备份措施，当主系统出现故障时，他们可以切换到这些备份系统中。但这个切换“开关”究竟是什么?一位工程师讲述了一个故事，他所在的公司数据库被彻底清除，造成噩梦般的业务中断。虽然有备份数据库，但需要解压才能使用。那需要多长时间?他们并不知道。

这名工程师所讲述的故事屡见不鲜。很多人认为对所有内容都进行备份就会感到安全，但他们实际上不能确定这些备份措施在灾难中立即可用。这个故事的另一个关键部分是缺乏资源：由于他们没有内部基础设施团队，将不得不依靠没有经验的工作人员遵循运行手册进行恢复。

解决这个问题的方法是定期进行恢复训练，模拟从生产系统切换到备份的一切情况。这需要多长时间?现在遇到的障碍有哪些是可以消除的?需要依赖什么资源?是否向其他人征求意见?是否使用基础设施运行手册?如果这些人离职，或者基础设施发生故障怎么办?企业需要为这些可能性做好准备。

在完成这些练习后，需要回顾可以改进的地方。最重要的部分是安排下一次恢复训练。随着代码库的变化和数据库的增长，需要继续确保备份恢复顺利进行。

不要满足于未经测试的备份。行业专家总结了这一点：当涉及到备份策略时，如果没有测试恢复过程，那么就无法确定其备份是有用的，如果不确定其备份很有用，那么它们很可能是没用的。

企业在运营业务时可能出现问题，例如服务器出现故障，代码中的拼写错误，高流量导致网络延迟等。但实际上，大多数事件都会产生其他故障的多米诺骨牌效应。企业在为失败做准备时，重要的是要考虑所有可能出错的事情。

以下是一些需要考虑的事项：

每个企业都有可能在事件发生时出现问题，因此需要从过去的事件获得经验和教训。可以创建事件回顾以调查事件的原因和影响。影响因素分析等技术可帮助企业发现这些一致的问题。

在确定这些问题之后，需要确保其备份计划能够弥补这些问题。不要遗漏任何东西：考虑从技术到个人的每个因素。如果使用内部工具来启动新服务器，不要以为会拥有它。如果工程师在出现问题时不知所措，需要确保有明确的解决方案并且易于访问。

企业需要跳出固有的思维模式，深入挖掘提出的解决方案，以发现可能出现的问题。例如，在遇到电力中断时，依靠卡车运送的备用发电机来解决问题——但是如果卡车遇到交通堵塞或抛锚怎么办?不要只满足于一种解决方案。如果企业的解决方案出现问题，需要采用其他的解决方案，并提供备份措施。

“黑天鹅”事件是一个几乎不可能预测甚至想象的事件，但会造成灾难性的破坏。回想起来，黑天鹅事件似乎是一种明显的可能性。然而在它发生之前，这是不可想象的。

科技领域的黑天鹅事件的一个例子是Facebook公司最近发生的一次宕机事件。Facebook公司并没有为他们的DNS服务器的彻底崩溃做好准备，他们也没有想到随之而来出现的许多问题——例如由于疫情导致出行封锁无法进入他们的办公室。如果一个普通事件产生了多米诺骨牌效应，那么黑天鹅事件就像打翻了纸牌屋。

那么如何为意想不到的事件做好准备呢?一种策略是发挥创造力。例如谷歌公司的一个例子：假设谷歌公司的总部被流星击中。在练习响应过程中，需要每次尝试联系那里的工作人员、访问那里托管的服务器，甚至依赖那里管理的带宽时都要停止。

但是谷歌公司的总部真的会被流星从地图上抹去吗?几乎是不可能。如果是这样，谷歌分支机构真的会恢复服务吗?不，他们可能会有更大的顾虑。但是通过模拟这种最坏的情况，企业可以为其他无法想象的事件做好准备。

行业专家强调了测试的重要性，不仅仅是为了想要测试的东西进行测试。灾难备份的重点是发现漏洞并推动系统性变革。而他将这个想法描述为区分稳健性(对可能出错的一切进行测试)和弹性(对于不需要知道的事情进行测试)，一般来说，发现企业在稳健性方面非常出色，而在弹性方面则非常糟糕。

通过对未知的测试来构建弹性是一种需要迭代和反思的实践。没有一种正确的方法可以做到这一点。重要的是彻底记录其恢复的过程和结果。然后分析哪些类型的实验正在产生见解，并围绕它们构建未来的测试。坚持练习，确保在最后一个实验结束后安排下一个实验。

但是对于世界末日的场景，将采用什么解决方案呢?行业专家提出了一个观点，乍一看似乎有悖直觉。在通常情况下，企业走向成熟和成长的途径首先是依赖第三方工具，然后在内部构建越来越多的工具和基础设施。大型企业可能会构建自己的通信、警报和跟踪工具。

然而，黑天鹅事件表明，可能还有一个更为成熟的阶段：将第三方工具作为备份。如果企业不能使用工具来解决问题，那么应该准备好其他一些工具。当然，与任何备份系统一样，需要进行演练以确保交换机的实际恢复功能。