一叶障目 运维故障难倒了管理员
有这样一辙场景,某公司的业务系统要接受上级领导的视查,而在快临近视查的日子里,管理员小张突然接到大量员工的反映,系统无法登录了,于是找来了业务系统的厂商,经检查发现交换机有丢包现象,多次登录导致认证系统认定其恶意登录,因此拒绝了登录请求。管理人员立即更换了交换机,发现问题依然,看来不是交换机的问题,那是何原因导致了交换机重复发包,在经过IT运维专家的分析后,应该是交换机运行一定时间后出现某种故障所导致的,结果去查询果然机房的空调故障,导致交换机温度过高导致丢包,最终造成了无法登录业务系统的严重后果。前后一共折腾了七天,最终在检查前完成了巡检工作,小张心中的一块大石头终于落下了。
从这样的运维小故事可以看出,目前企业中IT运维存在着大量类似的问题,发现故障不能准确定位原因,而分析过程耗费大量时间导致故障不能及时处理,给业务系统运行带来了影响,这在金融、电力、能源等行业都将会造成重大的损失。因此这样的课题摆在了管理人员面前,需要怎样的IT运维才能提升管理层次,在故障发生之前能够知道设备隐患,在故障发生后能够迅速定位根源所在,这样的运维管理才是真正能够解决问题的管理,正是企业所急需的保障有力的IT运维。
智能、关联 IT运维应智能化、系统化
其实从上文的案例中不难看出,如果管理员小张有一套智能的IT运维管理系统作为帮手,那就能分析到业务系统的具体故障,关联到交换机的丢包,而丢包的根源其实就是交换机温度过高引起的。这些层层递进的关联是应该能够通过IT运维管理系统分析得出结论的,但事实上,目前绝大多数的IT运维管理系统并不具备这样的功能,因此才会给管理人员造成这样的困境。
所谓的智能、关联就是企业的IT资源应该是能够纳入到一个统一平台进行管理的,在此基础上对于采集而来的底层数据进行关联分析,从而得出重要的运维结论,将这些分析总结上报到运维层面,呈现给管理人员查看。同时,基于业务系统的相关IT架构也应该能够智能关联,对构成业务系统的客户端、数据交换平台、硬件支撑平台、支撑软件平台、应用系统等进行实时的监控管理,从而准确掌握业务系统的运行情况,当业务系统发生故障时,能迅速定位到具体某一环节,反推之,构成业务系统的某一组件运转出现不正常,可能给业务系统带来怎样的影响,这些都应该是可能通过运维管理系统及时告警给管理人员的。这样才能真正做到对IT资源掌控于心,运维无忧。
这其实就是一个根原因的定位过程,如果企业的IT运维管理做得好,智能、关联是其必不可少的两个要素,可谓企业的“任通二脉”。打通这两个关键环节,IT运维对于企业的价值就不仅仅是后勤保障工作,而是提升企业经营业务效率,创造更多的经济效益,自然而然领导会更加重视IT部门,IT部门在整个企业的地位也将随之上升。
长久之计 打造IT核心竞争力
作为国内IT运维管理专家的北塔软件,为用户提供IT运维方案的着眼点,也在于智能、关联。其基于BSM理论的BTIM IT综合管理系统提供了强大的信息关联展示、分析能力,企业网络管理人员可以在业务管理上综合不同领域的业务关键参数,去准确定位故障的性质、位置,直接调用各个管理组件定位的故障点。同时这些管理组件的关联性,也方便管理人员通过层层递进的模式去分析和解决问题,体现了IT提升企业价值的这一运维理念。
IT运维的发展任重而道远,企业应该明确形势,选择适合架构的智能、关联的IT运维管理系统,从而在日常工作时减少因故障而带来的业务中断,让IT真正成为不断助推企业业务前进的动力,打造具有核心竞争力的高科技产业。