这天早晨,我带儿子在公园里溜达,迎着冬日朝阳沐浴在晨辉下,感觉身心美滋滋。
正闭眼享受惬意时光的当下,口袋突然震了起来。
7点刚过谁打我电话?这日子还能不能过了?
拿起手机一看,咦~某游戏公司的运维经理王总?那么早找我干嘛?出于专(qiong)业(bi)的职业素养和精神,接了再说!客户满意度***!
我: 喂,早呀!王总, 那么早就起来啦? 早饭吃了么?
王:没吃!吃不下!你上午有空来次我们公司么?有些事情我要了解下!
我:啊!? 关于什么事情?需要我准备什么资料么?
王:就两个月前我们买的200多台服务器的事情! 不用准备,你来就可以了!
我:啊啊?? 怎么了?出故障了么?
嘟嘟嘟…….
撂下电话,我火速抓住撒欢的儿子一路狂奔到家,背上双肩包,坐上地铁杀向客户公司……
见面后我开门见山:那200多台服务器不是你们另一个项目组A的么?
王总:这半年来我们项目组的在线玩家数量和收入增长都不错,而且接下来会上新版本,所以我们就和采购提了200台扩容需求。 而暑假期间项目组A的游戏流量只有预期的一半,于是大老板就把两个月前买的那260台服务器转给我们了。
我:这不挺好的么?这样一来你们项目组差不多有800台服务器了吧?
王总:问题是这260台服务器目前的BIOS&RAID配置和预装的系统是按照A项目组的要求做的,和我们要求不一样啊。你也知道我们组算上我才3个人。以往需求都是你们出厂预设好,我上架就能用的,现在怎么办?总监要求3天内就上线。你有啥办法不? 愁死我了……
我:……就这事啊?(我还差点就坐火箭来了!)对戴尔易安信服务器来说,这都不叫事好吗 !
对戴尔易安信服务器全生命周期管理来说,批量重新配置及部署是默认的标准功能~
首先我来介绍批量部署及监控的神器—— OME(OpenManage Essentials)
OpenManage Essentials 是戴尔营销硬件管理应用程序,能够对企业网络中的系统、设备和组件提供全面的监控、部署及资源清册。用户可在设置并允许的网段内,通过SNMP协议管理及监控最多可达8000台服务器,前面王总说的260台服务器重新配置,完全可以靠OME实现。
在OME的部署门户页面,用户可以执行初始服务器及操作系统部署。通过该门户用户创建服务器配置模板,针对服务器有iDRAC、BIOS、RAID 和 NIC 的设置,以及针对刀片机箱有CMC 的设置。这些配置模板随后可以部署到多个服务器或机箱以进行初始配置,然后再从预定义的可引导 ISO 映像启动操作系统部署流程。通过设定多个模板,用户可快速切换现有服务器的设置,极大地简化了日常运维工作。
关键这个软件是免费的!!!
王总:哇塞!这么好的东西你怎么现在才告诉我,这个还能监控和预警?我不用派人天天去机房巡检了?
我: SNMP、WMI、WS-MAN可管理并监控服务器、交换机、超融合存储、防火墙等设备,具体内容请看OME界面。
▲上图,即为OME的操作界面,主要分为4个模块:
○ 模块1是顶部导航栏,模块2为菜单栏和搜索框;
○ 主要看模块3,这里是控制台区域,清晰地显示了设备状态及报警饼图,界面右侧排列了一系列报警日志,对应的时间、报警级别、设备IP地址一目了然;
○ 模块4显示了具体的报警内容。
如果向OME管理服务器开放外网访问戴尔易安信官方源的话,OME还可提供对服务器的BIOS、固件、驱动的更新,并在***时间通知用户高优先级补丁的更新情况。
另外,OME还可以帮助用户盘点资产并生成资源清册报告哦!
王总:资产报告?OME统计地全面和准确么?我们现在是用表格手动做资产管理系统,经常出错。报修换了主板或者网卡后,表格里的mac地址也经常不准。
我: OME做服务器资产盘点的效果可是杠杠的!它能对所有受管设备生成非常全面及详尽的资源清册报告,如下就是对于所有设备的NIC信息做出的统计,其中IP、MAC、Vendor信息都清晰可见。
此外,清册报告里还包括如下内容▼:
服务器资源清册类别 |
说明 |
服务器概览 |
提供关于服务器的信息,例如:系统名称、服务器上安装的操作系统、处理器和内存 |
硬盘驱动器信息 |
确定硬盘驱动器的序列号、修订版、制造商、总线类型和自加密功能。 |
内存信息 |
提供有关DIMM 的详情,并确定特定 DIMM 在服务器中占用的插槽。 |
PCI 设备信息 |
确定每台服务器中的型号、制造商 以及PCI 和PCIe 控制器的插槽。 |
存储控制器信息 |
确定服务器上的存储控制器,并提供控制器名称、供应商、控制器类型和控制器状态。 |
虚拟磁盘信息 |
提供有关虚拟磁盘的信息,如大小、布局,条带大小等等。 |
服务器组件和版本 |
标识所有查找到的和进行资源清册的服务器上的BIOS、驱动程序和固件版本 |
设备配置合规性 |
向关联的设备配置模板提供与服务器或机箱的合规性有关的信息 |
我:利用这些OME功能,就算你们团队只有3人,管理好800多台服务器也不在话下!
王总: OME的监控、管理和部署确实非常不错!不过每次保修还是很麻烦,要听很久电脑语音,还要抓日志!
不过刚才我听你说服务器能主动报修,还能主动换备件?难道服务器成精了吗?如果这样,那我们就省力了。哈哈~
我:哈哈,服务器当然不会成精。主动式报修和更换部件是通过SA实现的。
SA全称SupportAssist Enterprise,是一款可自动为 Dell 服务器、存储、网络设备提供技术支持的软件程序。在设置 SA 并正确配置待监测设备后,任何受监测设备发生硬件事件,SA便会收到警报,并通过使用各种策略对收到的警报进行筛选,以确定警报是否符合报修条件。符合报修条件的警报被安全地发送给 SA 服务器,创建或更新报修案例后,售后部门使用报警信息对问题进行故障排除,并提供适当的解决方案。具体可参考下表▼:
SA 功能 |
说明 |
主动检测硬件故障 |
SA 接收受监测设备中发生的硬件事件的警报,并主动确定警报是否表明发生了硬件故障 |
预测性检测硬件故障 |
对从受监测设备收集的系统信息进行智能分析,从而预测将来可能发生的硬件故障 |
自动收集系统信息 |
自动从设备收集对问题进行故障排除所需的系统信息,并将其安全地发送至戴尔 |
自动创建支持案例 |
在主动检测到或预测性检测到硬件故障时,系统自动向技术支持部门创建服务请求 |
自动电子邮件通知 |
将关于支持案例或问题的电子邮件通知自动发送到贵公司的主要和第二 SA联系人 |
主动部件派发 |
如需要更换部件才能解决问题,SA中配置的派送***项向您派发更换部件 |
技术支持部门主动回应 |
技术支持代理将就该支持案例主动与您联系,并帮助您解决此问题 |
部分地区故障发生后4小时,我们的售后工程师就可以带着备件上门更换了。上次在一个部署了OME+SA的客户那里,我们的售后工程师都带着备件上门了,他的机房驻场工程师才发现原来一台服务器的硬盘坏了一块。
由此,SA的专业性可窥一斑。
综上,OME+SA双剑合璧,可打造一个集部署、故障监控、资产清册、自动报障、自动维修为一体的自动化运维平台,保障您运维无忧!