IT人的工作压力指数一直高居不下,而在这个群体中从事技术维护的网络管理员们,一样也无法逃脱因为工作环境“恶略”造成的信心缺乏。如今,在任何一个企业的IT建设过程当中,网管员在整个系统当中都承担着非常重要的责任和使命,他们的作用直接关系到企业信息化建设和使用过程中的成败,不论系统的选型、构建、维护、升级,这些人的努力把IT的身影映辉得更佳闪亮。但是,这类人群本身和他们所承担的压力,长期以来却是比较受忽视的,自嘲的我们把网络管理比喻为一个没有幸福感的牢笼,那么,网管员应该如何做才能完成自己的救赎呢?
网管员忙碌的一天
郑满是一名制造企业的系统运维工程师,由于名字的谐音,再加上平时工作的忙碌状态,大家都管他叫“真忙”。那么他每天都在忙些什么呢?
“真忙”由于昨天加班很晚,早上迟到了。带着被扣钱的心情坐到了自己的工位上,马上利用各种命令检查业务系统核心设备的连通性,还好没有出现什么问题。接下来,根据领导的要求,开始检查公司这100多台服务器的日志,因为时间消耗太长,后面的只能走马观花,对着一堆状态检测表格,只能都打上“√”。11点左右,他又遇到了业务部门关于“上网慢、查询数据慢”等一系列“慢”的投诉,反正已经习惯了,先不理会。下午遇到了CRM服务器宕机的紧急事件、在一系列的打电话、查问题、找故障的加班之后,日报又不知道如何去写?回家的路上,地铁里的人已经渐渐稀少,移动电视里播放着关于“市民幸福感的采访录像”,“真忙”脑子里一片汪洋,他琢磨着:“日复一日,职场竞争激烈,想学习一些新技术也没有时间,身体也变得越来越臃肿。要是因为成天加班,女朋友再闹……”
与“真忙”一样,很多从事网络管理工作的人,每一天的生活其实是忙碌而痛苦的。很多企业为了对网络和IT系统进行定时巡查,就事前打印了无数的表格,然后通过三班倒的方式,每个值班人员就按照打印的表格要求,登录到固定的服务器和网络设备上,去查看设备的CPU利用率,网络延时等信息,然后通过打对钩或者打叉来说明现在系统的运行状态。而如果业务部门在访问IT业务系统时,如果出现问题,则是直接打电话到IT部门,谁接着电话,就用笔直接记录在故障单上,然后处理。如果一般性的问题,可能业务部门的人员和IT部门的人员直接就在QQ上聊天交流,直到问题解决完成。如果遇到紧急故障,加班、挨骂的事情是常有的。
改变,从基础设施的运维开始
据我们了解,目前很多企业的IT运维水平仍然是处于这种状态,虽然我们天天都在喊着“稳定高于一切”,但实际的工作状态却是一塌糊涂。那么,接下来让我们来谈谈关于“改变”的话题吧。
很多专家会说,让你们公司实施ITIL、ITSM、BSM呀。没错,这些IT运维前辈们总结出来的IT服务管理(ITSM)理念和标准(ITIL)的精髓为企业提供了很好的借鉴,也确实可以让网管员的工作变得有章可循。但再好的理论,如果上来就构建一个空中楼阁的设想,我们也仍然是在纸上谈兵。
作为国内领先的IT运维管理产品和服务提供商,在IT运维管理前沿积累了长期宝贵经验的北塔软件认为:“事实上,在一些运维方法处于起步阶段的企业而言, [微软用户1]一上来就要全套照搬那些国际化的IT管理方法,还不如先解决设备层面的监控和预警难题,因为这个前提不具备,任何其他的IT管理都是行不通的。
IT基础设施的管理看起来简单,但实际上却有着很强的专业性,随着企业规模和IT系统的扩展,子系统不断增加,网管员的压力会一天比一天加大。而之前只维护一两套系统的从容状态、幸福感也会一天天的消失。相对比,采用集中运维管理工具的网管员都知道,对于主机和网络系统的监控大都是网络连通性、设备负载、TCP告警、端口状态以及流量、线路状态以及流量、设备日志信息、设备配置变动、SNMP连通性以及Trap这些信息等。但面对成百上千或上万设备组成的网络,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机故障出现。针对这种情况,必须有一套综合的IT运维管理平台才能让我们找回失去的幸福。
志向远大的网管员
“真忙”最希望的是把网络、路由器、交换机、服务器等纳入一个平台上进行管理,保证其运行不出问题。因为只有通过IT基础设施管理服务的建设,他和同事才有能力提供7X24小时全天候对服务器、网络和数据库进行监控。
网络管理部门会习惯,他们为业务部门服务,而运维系统为自己服务的工作状态。以北塔BTIM(Betasoft Integrated Management,IT综合管理软件)为例,我们看看这套系统是在一天的工作中是如何帮助“真忙”改变消沉已久的运维现状:
·9:00,登录到BTIM管理系统,进行例行检查,包括查看综合视图,查看告警信息等。
·9:20,查看业务系统的运行情况,分别打开服务器、数据库、中间件的数据流转图,查看性能指标。
·9:40,将下属单位新加的一台网络设备线路设置为监控状态,同时根据开发部门告知新增数据库的通知,并将其命名为“XX业务数据库”。
·9:50~12:00,看书,网上查资料。
·12:00~13:30,午餐、给女友上淘宝选生日礼物。
·13:50,根据今天和之前一周的报表,确定最近网络设备比较繁忙,调高阈值到80%才变红色,之后继续看书、查资料。
·14:50~15:30,按照领导要求,完成了三项工作,之后登陆一些关注的IT网站,看看今天的新闻和技术趋势:
(1)要求监控公司主页,增加了一条URL的监控告警设置。
(2)在BTIM中查询下个月就要过保修期的设备清单。
(3)根据BTIM自动生成的核心设备运行情况,制作出一张核心设备运行率报表,完成月报。
·17:50,快下班了,对所有线路今天的流量做了一个Top10排序。
·18:00,准时下班,但发现地铁很拥挤,“锻炼身体的时间”又到了。
看过这样一份时间表我们发现,通过IT基础设施综合管理平台的建设,“真忙”如今可以从容地管理网络、安全、机房、服务器、数据库、中间件、应用等各个方面的细节。同时,由于BTIM运维系统可以提供性能、故障、各类数据流分析、资产管理报表,网管员也不必天天加班了。
你可能发现,除了日常的运维工作,主人公剩下的时间多被看书和查资料占用了。原因很简单,“真忙”已经把自己网管员职业发展方向定位了技术专家,因为他已经不再甘心当一名技术蓝领。IT运维软件不仅是IT系统的救赎,更是网管hold住幸福的起点。从某种意义上说,不再毫无目的的忙碌才是幸福的关键,至少从事这项工作的我们是这样认为的。
这段话说得稍有些绝对,我们的言论发表因为加了公司的名称,所以尽量中性一些,语言色彩温和一些。