IT运维管理离不开对IT基础设施的管理,但是目前很多人认为,IT运维对于底层的NSM不是很重要,实施BSM可以抛开。5CTO.com在采访中了解到,这种观点是有问题的。IT运维管理的核心目的是保证基础架构对业务的支撑。如果脱离了基础架构管理,我们拿什么去支持业务呢?业务是什么,业务是一个端到端的过程。前几年IT运维管理系统的流程没做好,最重要的原因是基础设施管理不扎实。基础设施管得不好,就盲目追求流程的结果是很可怕的。比方说我们实施了一个事件管理的流程,但如果我们发现的事件是错误的话,整个流程是毫无价值的。举个具体一点的例子,如果财务系统不能运行,IT运维系统会有很多告警,网络、服务器、数据库、中间件告警,但有造成这个故障肯定会有一个根原因,这个跟原因会造成系列的告警,如果对基础设施管理不扎实,就无法发现根原因;告警十几个,产生十几个事件,派了十几个人去执行十几个工单,最后是一件事。这个流程越高效,浪费资源越厉害。所以说,流程化管理的第一步是把基础设施管理做好,对这些问题有细致的了解,在此基础上事件管理才是合理的,比如网络有问题,结构不合理,如果没有工具发现这个问题,经常出事,流程就归为问题,事件管理是应急的。缺少大量的基础数据,不能有效解决问题。所以流程化管理做得不好,脱离了企业的实际,要搭建BSM,首先综合管理平台要牢固,把企业的方方面面纳入管理范畴,构建关联有关系,类似于ITSM的CMDB,在此基础上流程才是高效的,否则无法实现高效,都是误报。
流程化的执行短期内是降低效率,如果要做ITSM,半年之内企业的效率必然下降,因为要进行资源整合,很多人要习惯,事件经理,问题经理,变更经理都不会很快习惯工作方式转变。用半年时间去适应,再半年去体现效率,用同样的人力物力处理事件数量成倍增长。
用户需要的是一个综合的管理平台,业务是一个多层次的问题,从网络到链路,到流量,到主机,操作系统,数据库,应用系统,能做统一监控。这个工作是大量的,要整合这些资源是很难的,需要时间的。国内大型企业在做这个工作的时候忽略了整合,他们分离、分立式的进行了管理,比如思科、ORACLE、流量等方面都用不同的工具去管理,这些工具是隔离的,数据没有关联性的,这就导致出现问题就容易出现推卸责任。国内有家大型企业实施了SAP系统,在进行领导参观前的最后一次演练时发现有人无法登录,认证系统出错。他们在排查鼓掌的时候,首先去查看AD系统。他们的AD系统是CA做的,经过验证,AD系统正常,但是网络有问题,经常丢包,这个丢包问题影响到了认证过程。为什么会不间断的丢包呢?他们认为是交换机的问题,可是换了一个交换机后却发现仍然丢包。最后用北塔BTIM系统排查,对信息收集归并分析,发现机房环境系统,一个空调坏了,交换机温度过高才导致的丢包,所以AD系统重复认证,CA认为其为非法,当时花了三天时间,终于找到故障。
这个例子就可以看出,如果没有一个统一的管理门户的话,信息是隔离的,管理人员如果无法找到问题的关联性是很难发现问题原因所在的。企业用户发展到业务系统很复杂的时候,一定会进行管理系统整合,把数据纳入一个平台,理清关联性。比如早期的布线系统,如果使用了若干年后出现了故障,管理员就需要一个一个的进行测试,而到今天,有管理系统能够对其进行标准化的管理。如果没有这些关联性,管理是没有头绪的。如果缺乏对基础网络的NSM管理,很容易把一些实际上很简单的事情判断成严重的问题,这对流程化的建设是不利的。国内脱离综合管理平台,不能做到有效实施,流程就成了OA系统。所以我们要注意,不要把ITSM做成了IT部门的OA系统,如果仅仅是把纸制变成了电子,同底层管理脱钩,是很难实现。这样造成的后果是知识库是无法积累,没有管理平台,没有解决问题的记录。NSM是BSM的基础,必须执行。