某日,早上10点,IT部门的直拨电话和分机几乎同时响了起来。网管员对于这一现象早已司空见惯,但这次不同,用户说ERP系统时而能登录,时而又无法访问。这可是公司日常运作的关键应用系统,抓紧***时间排错。管理员在通讯线路、物理层设备、服务器、ERP系统、数据库、存储设备都一一开始排查问题,但一直到了下午17:00,还是没有找问题根源所在。打电话求援厂商,采用了“分段”和“分层”的排查策略,基本断定了是链路上有问题,但时断、时通的问题还是没有得到彻底解决。
上面这个案例充分说明了一个问题,在IT支撑业务的年代,企业的规模越大,往往越经受不住故障的侵袭。突如其来的各种故障可能随时造成系统停机,业务中断。那么,如何在千丝万缕中找到问题,并在***时间处理问题呢?
《排错宝典》缺乏时间观念
前面提到的“分段法”和“分层法”常被IT运维人员称为《排错宝典》。其中,分段法,可以理解为在同一网络上,把故障分成几个段落,让用户利用Ping等命令对本地网关进行连通性测试,再逐一排除。而分层法则更容易理解,比如从OSI模型中的物理层和应用层,向上或向下进行排除,逐层检测每层设备或系统的可用性。但这种手工处理问题的方式很难在短时间内发现问题的根源,另外一方面,则有可能因为太仓促行事而把事情弄成一团糟,引出其他因为配置修改造成的混乱局面。
网络故障的管理是IT综合管理的重要组成部分,随着网络规模的增加,网络故障的管理变得日益重要而紧迫。虽然我们仍然可以按照“IT经典排错法”修复系统,但在业务如此离不开IT的今天,庞大的运维对象,如果不能将支持业务系统的设备都关联起来,当成整体的运维对象去看待,就很难在***时间定位故障,业务的连续性也无法得到保障。
针对这一普遍现象,作为国内领先的IT运维产品和服务提供商的北塔软件认为:“目前许多企业的IT运维环境中,管理员都会利用系统自带的日志告警和网络监控脚本,但这只是处在‘半自动化’的运维状态。因为这种IT运维状态,很多还仍然是等到IT故障出现后再由运维人员采取相应的措施,所以传统的、被动的、孤立的IT运维管理模式经常是让IT部门疲惫不堪。另外,在企业中,很多业务系统建设目标都非常有针对性,但同时这也就造成了运维的有限性,在网络层和应用层分别使用所配套监视系统,这些监控的关注对象只可能是本层的设备或系统。虽然这些工具很强大,但仍然各自为战。随着新增业务系统一个又一个地建设,其各自所配套的彼此各不相关的监视系统也一个又一个地被建造出来,并各自孤立地投入运行。上面这些,都说明了没有关联性的运维模式为何不能及时发现故障问题的原因了。”
关联性综合管理有章可循
当然,并不是所有运维软件都不能关联性辅助管理人员发现、分析、定位、解决问题。北塔软件设计BTIM系统,其内部所有管理组件都不是互相独立的,这种基于企业IT运维管理规律的关联性,体现在客户可以根据故障原因,一层一层地去抽丝剥茧的分析解决问题,而这也是BTIM让你摆脱“找问题的日子”的***价值体现。
企业可以利用“拓扑发现管理”关联的各个模块,呈现出一张信息非常丰富的“物理拓扑图”。当然,这张拓扑图不只是一张“死图”,它可以给予用户一个对网络资源的整体把握,能告诉我们网络的各部分负载状况,各线路流量状况。在物理层采集完毕之后,我们就以在这个图上大做文章,比如逻辑拓扑、机房拓扑、业务拓扑,通过连接对支撑业务系统运行对象的整合,形成不同的运维组。
前面提到的多个拓扑图,为何我们不把它称为“死图”呢?这也就是为企业构建配置管理数据库(CMDB)埋下了伏笔。作为整个运维平台的基础,CMDB的作用就是确保配置数据的统一性和完整性,同时保证所有流程通过CMDB的纽带作用关联为一个整体,并与其他模块(如知识库、问题库、服务台等)紧密关联。CMDB在IT综合管理中,组成了物理网络基础架构上各组件的可靠数据源,这些数据包括问题记录、变动记录、版本信息、状态信息、关系信息等等。如果缺乏这些数据支撑,没有几天的时间做统计分析,如果要想解决问题,那便真是大海捞针了。
比如文章开头提到的ERP故障问题,如何快速响应,快速定位问题源,如何在***时间解决,这些都在说明一个问题,这就是“快”。所以说,如果出问题以后,我们就可以直接看到与这台ERP服务器关联的物理拓朴、机柜拓朴、和设备面板图,从操作菜单上可以相互调用,提高处理问题的效率。网管员根据告警和机房物理设备地址的关联关系,能迅速确定告警设备的机房位置,并且运用强关联性通过右键入口就能关联到真实物理拓扑图,然后定位到机柜图上,此时便可直接通过设备面板视图,最终定位到设备端口上。而前面这些操作,却无需网管员跑到机房和设备前进行排查。
在IT运维中,“关联”能够将企业的IT资源纳入到一个统一平台进行管理,在此基础上对于采集而来的底层数据进行关联分析,从而得出重要的运维结论。同时,基于业务系统的相关IT架构也应该能够关联,对构成业务系统的客户端、数据交换平台、硬件支撑平台、支撑软件平台、应用系统等进行实时的监控管理,从而准确掌握业务系统的运行情况,当业务系统发生故障时,能迅速定位到具体某一环节。只有这样,才能真正做到对IT资源掌控于心,运维无忧。
◆操作上的关联分秒必争
◆CMDB让运维流程凝为一体
◆关联从拓扑伊始