南非世界杯的大幕已经落下,在736名球员和数十亿球迷心中,有两样东西将让人久久不能忘怀:一是闹心的“呜呜祖啦”;二是足球世界中永远不消失的话题“裁判误判”。误判的产生,在生活中、企业管理中、网络运维中一样存在,它可能改变我们人生的轨迹、也可能将附着在网络上的业务体系陷入万劫不复的地狱。
摩卡软件在最新发布的Mocha BSM 7.5.0中全面扩容了网络焦点(Network Focus)功能的技术覆盖面,延伸至网络中的每个对象,不但为网络运维实现了7*24小时的自动监控部署,更增添了 “故障回放”的特性,如同在网络中安插“鹰眼”设备,全面减少了因为手工监控运维所带来的误判结果产生。
网络运维为何也需加入鹰眼功能
本届世界杯中的英德大战,若是兰帕德的进球没有被漏判,最后可能也不至于英国的球门被打成筛子一般。但就是这样的一个错误判罚导致了英格兰队全场被动,最终以耻辱的比分败北回家,英格兰球员四年来的努力也因此化为乌有。如果说,1966年的“幽灵进球”成为了世界足球史上一桩永恒的悬案,此次国际足联“禁止在球场大屏幕回放本场比赛录像” 的决定,倒是真让人匪夷所思了。如今的科技水平完全可以做到这一点,在网球和击剑运动中早引入了“鹰眼”技术,这种十分精密的即时回放系统,由8个或10个高速摄像头、4台电脑和大屏幕组成,它是保障裁判判罚精确性的得力辅助工具。
在回味世界杯的同时,我们不由得想起了网络管理和系统运维管理中也大量存在的“误判”。网络故障分为物理故障和逻辑故障,物理故障是网络连接出现物理上的损坏(如网线断或交换机故障),而逻辑故障单独依靠手动排除,或者利用ICMP包(Ping命令)的回应数值断定是解决不了的。例如,业务部门的员工反映业务系统响应缓慢,IT人员可能会判定的路线有:服务器中毒、客户端程序故障、网络拥堵、服务器负载过大、中间件连接错误、数据库优化失败……如果依靠运维经验,我们甚至需要从最底层(物理层)开始往上排查,每条路线都走一遍之后,我们还需要从漫如汪洋的日志中寻找蛛丝马迹。即使最后成功地消除了故障影响,而第一步操作中就掩藏的主观误导也将大量延迟修复的时间,因此产生的业务系统的停滞对企业的影响也极大。
结合各大生产网络和互联网企业的特点,以及现阶段IT架构运维的常用功能,摩卡软件产品总监侯军认为:“不同架构和行业的网络中运维都存在着各种变数,但综合起来分析,在基于业务体系的运维管理中,任何一个网络都需要最基本的三种特殊功能支撑,它们是‘全景地图’、‘放大镜’和‘回放器’,对应起来就是拓扑管理、资源管理和故障分析。对应球场上的鹰眼功能,这三种功能分别可以解决的就是边裁要覆盖球场每个角落、每个球员实时追踪,出现进球和犯规时在大屏幕上立即回放。”
熟悉比赛规则 当好网络的“法官”
决赛选择了英格兰光头裁判韦伯最为恰当,球场上的裁判常称作“法官”,他们拥有着至高无上的权力,拥有决定一支球队命运的权力。而网络中“裁判”要做的第一件事情就是将企业的业务流程熟记于心,同时要各司其职。在Mocha BSM 7.5.0的Network Focus中,以业务主流程为基础,将使用者划分为:实施工程师、用户工程师、用户主任、用户领导,这四种角色,每个角色都以从自己的路线图进入到业务流程中去,并且四种角色可以通过业务视图清晰的获取需要的“职能守则”。
在部署Mocha Network Focus之后,将自动收集整个网络的全景布局,形成独有的管理拓扑。用户可以在核心、接入、终端面板上点击“鹰眼按钮”切换设备的展现情况,按照路线图或定位点监控追踪对象。通过业务主体对象的逻辑拓扑图和物理拓扑图的对应,利用智能的诊断工具和收集工具,包括业务对象的IP分布、CPU等主要监控参数,点击故障面板上“分析”工具即可自动分析故障的原因,快速定位故障点,并且系统将尝试自动修复功能。由于采用立体资源展现,所有业务对象拓扑中的基本信息、状态、快照,物理位置,组结点信息等等,都可以自动关联。另外,Network Focus还增加自动告警功能的基础上,增加了针对机房的巡检功能。通过维护机房的巡检模板配置,实时告警平台将列出最近20条告警信息,而1周之内的设备告警,NTA(网络流量分析)告警、Syslog告警、链路告警、IP-MAC告警等都可以进行“历史回放”,形成业务体系健康程度的巡检统计报表。
鹰眼将彻底消除“业务承载层”的误判
与几年前相比,企业对IT的需求已经截然不同,随着企业业务的发展和 IT 基础设施的不断扩张,IT 管理正在从侧重资源管理向侧重于业务和服务管理演进。相应的,IT 监控也从资源监控向业务监控转变,因此构建一个强健的 IT 运维监控管理体系对企业信息化的发展至关重要。之前我们可能忽视了网络之上的逻辑业务的管理,如此一来,就造成了网络运维和业务管理之间的脱节。经过几年来ITIL和BSM(业务服务管理系统)概念的普及和认可,很多企业之前对于网络管理方向的“误判”得到了修正,如今我们定义的BSM目标的方向没有错,这是不是意味底层监控就不重要了呢?答案是否定的。
我们知道,如果要展现业务的健康状况,那么承载各种业务的硬件设施和服务软件产品信息就必须要首先“精准”,如果这些业务承载层的对象报警信息产生误导,何谈业务管理呢?以现在很多企业中的核心业务承载层为例,双机热备(HA)主机和负载群集系统的监控很少能有IT运维工具监管起来。Mocha BSM 7.5.0升级版本可以对集群性能整体进行监管,例如:反映集群服务的总体运行状况、反映心跳线中数据检测、反映可能出现服务器切换的响应时间,并根据指定的逻辑与给定阀值进行比较告警等等,这些都是功能的增加,都是业务为主体模型开发的,其中都蕴含了综合资源监控,不遗漏任何死角的研发思路。
通过以上的分析,不难发现,底层的监控依然重要,我们在BSM中倡导的不是要抛弃底层数据的监控管理,反而应对基础信息的收集加重砝码,避免与业务信息脱节造成的误判,这才不会导致把业务管理建成一个无法欣赏的“空中花园”。