如今,数据中心越来越趋于自动化,并已成为数据中心良好运营的强大力量。以下列出在数据中心监控自动化中经常出现的两个主要问题。
问题1:房间里的大象
“房间里的大象”是指人们私密生活和公共生活中对于某些显而易见的事实,集体保持沉默的社会现象。人们在进一步深入自动化之前,无论是自动发现,报告交付或警报触发操作,必须做出一个关键点:在某些方面,它被称为DPR周期。DPR代表检测,预防和响应。
警报是工作人员在发生错误时捕获错误的方式,但是由数据中心工作人员来决定它们发生的原因,并找到一种防止错误再次发生的方法。当构建一个解决方案以自动响应警报并进行修复时,作为负责任的数据中心专业人员,还应该致力于分析情况的艰苦工作,以找到模式和根本原因。然后需要解决根本原因,并创建检查,以便知道是否再次出现问题。
对警报的自动响应保持企业的业务在所有的时间运行,并帮助确保知道你需要的时间,工作人员必须能够看到发生了什么,做的工作出来为什么会发生,所以可以防止它在将来发生。这样才不会出现“房间里的大象”问题。
问题2:内心恐惧
许多数据中心专业人员在第一次提出自动响应警报的想法时感到担心。而具有一个真正有活力的大脑的人会对这些警报进行仔细思考,然后谨慎采取行动。这种想法就像站在“自动化”海洋的边缘。有点令人望而生畏。但你必须相信不会被海水淹死,并且有能力一步步地尝试。这并不是一个全有或全无的命题,其风险也将会从零到全部。
与任何IT工作一样,有实施计划有时比实施(或在这种情况下是自动化)本身更重要。所以可以再谈谈这个实施计划:
- 首先识别测试机器。无论是为这些目的而部署的实验室设备还是那些不太重要的志愿者,请设置警报,以便触发这些机器。
- 学习使用反向阈值。虽然企业的最终警报将检查CPU的工作负载量大于90%,工作人员可能希望避免反复测试。而CPU的工作负载量小于90%将触发更多的可靠性,至少工作人员希望如此。
- 查找复位选项。与上面密切相关,了解数据中心监控工具如何重置警报,以便再次触发。也许很可能会很多使用那个功能。
- 详细情况。数据中心工作人员想要了解发生什么和什么时候可能发生。如果数据中心的工具支持自己的日志记录,请将其打开。在自动化中大量插入“我现在开始XYZ步骤”消息。虽然很乏味,但你会很高兴所做到的事情。
- 自己处理警报。如果你认为会通过发送这些警报到服务器团队进行测试,事实上,你并不会把它发送到任何团队,而会认为自己可以处理这些警报。
- 你真的不需要通过电子邮件触发那些警报。所有这一切都是在基础设施上造成额外的延迟和压力,以及如果你的警报同时启动多个消息,可能会产生其他问题,会将消息发送到本地日志文件和显示屏。
- 分享警报提醒。现在,你可以通过对话与小组的其他人分享警报提醒。
- 采用对话。这个过程将涉及与其他人交谈。设置自动化是协作的,因为你和那些每天都在一起工作的人都应该同意从基本功能到消息格式的一切。
- 将相位器设置为满。一旦自动化在企业的测试系统上工作,计划通过分阶段的方法实施。使用相同的机制,你用来限制几个警报,你向网络扩展,也许10-20个系统。并且你再次测试观察结果。然后你扩大到50个左右。确保你和收件人都很满意所看到的结果。记住,在这一点上,团队正在接收常规警报,但你仍然应该看到之前提到的详细消息。你应该与团队进行审查,以确保你认为发生的是真正发生的事情。
遵循这些指南,任何自动响应应该有很高的成功机率,或者至少你会避免陷入糟糕的自动化,不会产生太多的损害。采用自动化的一个很好的经验法则是用最小的努力获得最大的回报。无论你现在看到的是什么基于系统的事件,这可能是你可以获得的最大影响。另一个找到自动化想法的办法就是聆听团队的想法,考虑是否有哪些用户投诉是由系统故障驱动的。如果是这样,它可能是解决自动化出现问题的机会。最后,不要计划得太远。你可能现在感到担心在获得一两个成功之后,你会发现团队正在寻求你的建议,以你的方式获得帮助。