【51CTO精选译文】本文是《Limoncelli的测试:有助于提高系统管理员团队工作效率的32个问题》当中的第15题:在某套方案进行大范围推广前,有没有事先进行过必要的试点?
假设大家打算对总计五百台计算机设备部署变更。也许是要更新内核,也许只为修复一个小bug。
直接对全部设备进行变更?绝对不要这样。大家应该先在少数几台计算机上进行测试,看看会不会产生意料之外的问题。确定一切正常之后再逐步推广,直到整个工作彻底完成。
这些用于早期测试的设备一般被称为“金丝雀”。
金丝雀作为当初煤矿开采业中必不可少的预警尖兵已经成了此类早期测试对象的代名词。二十世纪初叶,美国及英国的煤矿工人们在下井前会先将金丝雀放入,以检测矿中甲烷及一氧化碳等有毒气体的浓度。这种小动物对毒气比人更为敏感,因此能够及时警示工人们井下的当前有害物质状况,使大家能够尽早撤离或是立即部署呼吸防护措施。
以下列举的是一些常见的金丝雀类技术:
个别、一些、大量:
从一台设备入手(不妨以自己的台式机为起点)、接着推广到数台设备(同事们的计算机该出场了)、***是大范围部署(逐步增加部署规模,直到彻底完成)。整个过程中出现的任何故障都必须加以重视,马上停止升级、取消变更项目且在问题完全解决之前不要继续尝试。
计算机集群中的金丝雀:
升级一台设备,接下来是占总体比重1%的设备,***以每秒一台的速度完成全部工作(主要是针对像Google这样拥有大型设备集群的网站)。
上述流程可以通过手动操作完成,但如果大家使用了配置管理系统,那么早期试点功能应该已经固化在系统当中。
【51CTO.com译文,转载请注明原文作译者和出处。】
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的测试:有助于提高系统管理员团队工作效率的32个问题:
- A.面向公众的处理方式:
- B. 现代化团队处理方式:
- C. 业务操作方式:
- D. 自动化处理方式:
- E. 团队管理方式:
- F. 硬件发生故障时的处理方式:
- G. 安全性处理方式:
【编辑推荐】