作为一款高效能的监控平台,美信CreCloud云网管拥有一套完善的告警系统。通过设置告警,我们可以不需要随时盯着运维平台。毕竟相对而言,运维平台主要的作用在于防患于未然,多数时间,我们的服务和应用都是正常的,而运维平台所需要发挥作用的时刻则是当服务和应用出现故障时,能够快速的通知到我们的运维人员。
美信CreCloud云网管支持通过声音、邮件或短信等多种方式进行告警、我们只需要准备一部能够收发邮件和短信的智能手机,即可“运筹帷幄千里之外”。设置告警并不复杂,但却能将我们的时间和精力从枯燥的运维监控上解放出来,在人力成本日益增高的大环境下,美信CreCloud云网管的告警功能更显得尤为重要。
一、定制邮件模板
在进行告警设置之前,首先要说明的是,我们需要先定制一个告警模板。在首页点击设置→左侧点击“告警模板”,依次如下图所示,新建一个邮件模板。其中邮件模板中提供了非常多的变量参数,方便我们对收信内容的格式和内容进行控制。
设置好模板之后,我们需要定义一下“邮件设置”的发件人和收件人。在这里,发件人意味着以何种身份发出告警邮件,在企业应用中,我们可以定义为postmaster@xxx.com这种发件人,收件人则意味着运维人员,根据具体需求,可以定义多个收件人。
二、增加告警设置
完成模板的定制之后,我们就可以对需要监控的项目进行告警设置了。首先我们在设备管理中,右键点击需要进行告警的服务器,选择“添加告警”
在弹出的菜单中,我们先对基本信息进行描述,根据实际情况填写即可。
在“告警范围”和“监测对象”两个选项卡中,我们可以勾选关注哪些监测点。比如某些设备我们虽然对它的整个运行状态都进行监控,如CPU、内存、网络流量等,但只是希望在网络流量超过一定范围时才报警,那么我们可以只勾选“网卡流量监控”这一项。
接下来在动作列表中点一下“添加”,我们增加一个邮件告警,同样,也可以增加短信和声音告警。而之前我们所设置的模板,在这里就有了用武之地了。
对于告警规则,也有多种选项可以选择。在上一次的学习中,我们学习了一个非常重要的概念“阀值”,通过阀值可以确认某一个监测点处于何种状态,如正常、危险、紧急或者是故障。在这里,我们也可以根据状态来确定是否发送告警。默认的策略是,连续两次发现“紧急”或“故障”,则发送告警邮件,同时每间隔3次再发送一次告警。
默认策略并不是一发现故障即告警,而是至少连续发生两次才告警。这是因为在实际应用中,有可能因为网络波动或者一瞬间机器压力过大,导致系统检测出的结果有偏差,也就是所谓的“误报”,很明显这种情况的告警不是我们所需要的。
但如果是持续性的报警,则确认是故障的可能性就大大提高了。一方面,我们不能设置过于敏感的告警信息,以免被这些误报整的风声鹤唳;另一方面,我们也不能设置的过于宽松,放过了真正的故障告警。
设置好后,我们就可以耐心等待了。如果告警条件被激活,那么就可以在自己的邮箱看到提示。
看,非常方便吧。用好告警功能,让你的美信CreCloud云网管再进一步!很多有用功能都等待我们去挖掘,从实践出发,联系具体的生产环境,你会发现美信CreCloud云网管会为你越来越好的服务。