一份数据中心关机检查表能够帮助IT团队在关闭电源和损失全部有价值数据之前,集中进行备份、测试以及系统验证等事项。 尽管策略和流程是现代IT的关键,但每当需求提升时,数据中心管理员往往来不及关闭设备。需求就像接近中的暴风雨那样富有戏剧性,也可能市政电网升级那样司空见惯。
但是,企业准备和响应设施关闭的方法可以鼓励或避免成本上的灾难。
一份精心构思和经过测试的数据中心关机程序在业务连续性规划中起着至关重要的作用。它定义了迁移或关闭应用程序、保护有价值的数据、关闭物理系统的***流程,然后晚些时候再成功地重新启动它们。让我们在一份基础的关机文档中考虑主要元素。
验证和升级系统文档
每份数据中心关机程序都是最终启动的前奏,因此在维护期间结束前,适当的准备是确保成功重新启动的关键。创建一个全面的(或者至少是当前可行的)文档集,获取每个系统的容量、操作系统和应用程序配置,特别注意在重新启动时可能发生或意外更改的任何内容。有很多工具支持创建这个文档集,并且最现代的配置管理和执行工具可以获取和报告系统状态。不要忘记获取或记录任何网络设备或存储阵列的配置。
管理依赖关系
不同公司和设备之间的实际依赖关系差别很大,因此IT规划者需要决定启动序列,包括网络设备、存储阵列、DNS服务器、备份服务器以及调度器。一旦所有必要的服务器、存储、网络和关键服务,如DNS等恢复在线,启动序列可以移动以重启应用程序,如数据库,紧接着是依赖的应用程序,如公司销售系统。然后,启动如公司店面网站这样依赖于这些应用程序的任意流程。
在准备过程中,还要识别和理解数据中心内的各种不同的依赖关系。记录依赖关系帮助IT人员以适当的顺序重新启动系统、服务和应用程序,以避免中断以及损失启动时间。例如,在启动存储阵列之前,不希望启动其所依赖的服务器。
执行并验证备份
备份对任何数据中心都是一个重要的过程,但可靠的备份在计划设施停运之前是至关重要的。在关机开始前完成并验证任何定期备份,并手动备份没有定期备份计划的系统,或在关机之前设置充足的恢复点。
传统的备份方法可能会尝试获取每个服务器的操作系统状态以及单独的数据备份,如SAN上的数据。虚拟化数据中心可以选择更近的虚拟机感知备份,如快照和远程复制。正确的备份不存在某一单一的方法或措施,流程与底层工具必须适合自己的数据中心和业务需求——但关键在于要确保所有内容都已备份,同时测试这些备份以验证他们是完整并且可恢复的。
如果准备时间有限,建议将时间集中在关键任务的备份上。然而,任何系统或数据未备份将使应用程序和业务存在风险。
检查并验证系统硬件
第三步是准备一份数据中心关机检查表,检查硬件状态并确定任何硬件故障。现代系统管理工具可以生成电子邮件或邮件系统的错误报告,将事件记录到日志文件并提供跟踪事件的全面和实时的仪表板。但并非所有的事件都能够立即解决。例如,RAID 6组中的RAID 5磁盘可能会出现问题,并被重写到另一个备用磁盘上,但在技术人员完成替换和重建出现问题的磁盘之前需要一些时间。类似的问题还发生可能迁移或重启虚拟机工作负载从服务器到其他可用系统的上时,然而由于尚未被处理,困扰系统可能仍然存在问题。
错误日志和仪表板的审查无法修复这些问题,但这能够在关机之前暴露相关问题,提醒IT人员问题并不是由停机或重启所引起的。IT人员可以做出明智的决定,以处理关机之前的未决事件,或至少确保未决的问题不会影响重新启动。
按照正确的顺序关闭系统
一般来说,一份成功的数据中心关闭程序始于IT环境的外围,并逐渐向内展开。公司可能会首先注销和关闭最终用户,关闭如Web服务器等应用程序以及Exchange等服务,紧接着关闭数据库和中间件。虚拟化环境可能默许和关闭如虚拟机或VMs等虚拟实例,其次是如VMware的vCenter或Microsoft System Center等管理工具。这时IT团队才应关闭物理服务器。而一旦服务器关闭,IT团队可以关闭存储和网络设备。IT团队在确保不间断电源系统、监视器、电源分配单元和其它辅助设备正常工作后便圆满结束关机任务。
恢复及验证系统
当计划的停机结束时,IT团队可以实施重新启动过程。理想情况下,重新启动将是关机的完全相反的过程,但过程并非总是如此。重新启动往往仔细进行每一步的设施电源再分配,防止巨大的电流冲击,以及可能触发的断路器和损坏设备。每一主要步骤还涉及一些验证或测试,以确保在执行下一个启动步骤之前,设备或软件保持正常运行。
例如,在尝试启动任何存储阵列之前,打开网络设备并验证其是否已正常启动。存储阵列启动完成后,检查可能出现问题的磁盘、有问题的磁盘组以及其他可能出现的问题。