系统管理自测32问之23：故障处理体系-故障诊断管理系统

【51CTO精选译文】本文是《Limoncelli的测试：有助于提高系统管理员团队工作效率的32个问题》当中的第23题：当某块硬盘发生问题时，你的整套服务器体系能否继续运作？

服务器上的所有数据都应该处于RAID 1/5/6/10或其它类似机制的保护之下。服务器的设计应该严格遵从“生存能力架构”，也就是说能够在某些组件发生故障时维持正常的运行状态。

曾几何时，计算机中的任何部件出了问题，整套体系只能彻底崩盘。事实上，组件的故障就相当于整体的故障。一块硬盘挂掉了，花是备份资料、恢复数据、更换硬盘就要花上一整天的时间。悲剧啊，如果这会儿你正打算把某项接近尾声的工作一口气忙完；悲剧啊，如果公司正好组织了一次激动人心的户外活动。总之硬盘出了毛病，一整天就肯定得搭进去。

如今一切都不同了。我们有“生存系统”作为坚强的后盾。如果每块硬盘都具备另一块镜像硬盘作为替补，那么矩阵中的任何个体发生故障都不会导致整体中断。如此一来，发生服务中断的可能性只有一种——硬盘及其替补同时损坏。据统计，这套体系能够在用户感受到之前给予我们宝贵的数小时甚至一天时间进行破损硬盘更换。这种限时处理当然要比花一天时间恢复数据要好得多。

现在好了，“业务中断”变成了“组件故障”，管理员的生活是多么美好啊！

过去RAID成本高昂，因此也不常见，可以说是有钱人才会考虑的奢侈方案。但现在这种处理方式已经非常普遍，价格不贵，甚至常常是免费的（指通过软件实现）。哦，其实常见还不准确，我其实想说这是必须的。花一天时间中断服务搞什么数据恢复，这不仅意味着预先规划的疏漏，更是种极端低效的时间管理观念。断了就断了，拿一天时间去安慰瞬间损失了数小时、数月乃至数年工作成果的客户，这种行为不叫贴心，而是纯粹的浪费时间。

我个人的经验很简单：启用硬盘镜像，其它硬盘组成RAID 1或者更高级别的矩阵。

【众所周知，RAID 6最少要由2T容量的硬盘组成，对吧？因此只把这种大容量硬盘组成RAID 5实在是种浪费。就从RAID 6或者RAID 10入手吧，现在的主流硬件都能满足要求；不过好像有点跑题了…】

下面要提到一些特例情况。

特例一：“总容量或临时空间不足”。这话说得没啥技术含量哈。

特例二：整套备份机制处于更高的实施水平，例如：

1. 使用类似谷歌文件系统这样的冗余文件方案。此类系统会将数据至少同时存储三份。而IBM公司的GPFS本地RAID（简称GNR）也采取类似的解决办法。

2. 本地保存的只是从其它位置传输过来的数据的只读副本。但如果要保证复制速度，RAID 5能够提供令人满意的性能表现。

3. 一次性设备。举例来说，一台表态图像网页服务器或者DNS“二级缓存”——这类服务器能够在极短时间内自动重新建立。如果大家手头要用到数百套此类系统，但又没采购RAID卡，那除了悲剧我很难找到其它形容词。

【51CTO.com译文，转载请注明原文作译者和出处。】

原文：http://everythingsysadmin.com/the-test.html

Limoncelli的测试：有助于提高系统管理员团队工作效率的32个问题：

【编辑推荐】