春节将近,辛苦劳作一整年的IT人终于可以着手准备期待已久的春节长假,或收拾行装准备回家或约上几多好友安排春节娱乐项目,工作随着年关将近开始放松下来。春节长假的到来不仅对于人来说,对于IT系统、设备也可以适当进入短暂难得的休息阶段。然而越是这种轻松的环境,越容易酿成大问题,过去血粼粼的教训教导我们无论是对人还是对设备都要做好经受无人值守考验的准备。
很多企业会建立规模或大或小的机房以承载为业务部门服务的应用,长假期间虽说大部分的企业业务部门都放假,很多企业为了响应和倡导节能减排的绿色IT会选择让IT系统都进入停机状态,但是还是有很多行业无法进入完全停机的状态,较为明显的是金融银行业、石油业、通信业、电商等其他要求在线服务的行业都无法完全进入休假状态。有这么多无法暂停的业务造成了如今IT系统运维在长假期间的难度,面对这样的困难IT经理与高层领导年复一年的忙于应付。长此以往,很难保证IT系统的运维工作稳定与高效。
重新认识系统运维
无论工作日还是长假我们都要清楚的认识到IT运维所包含的内容和范围,当然每个企业都有不同的业务模式,IT系统的运维内容会有所不同,但是广义上对于IT系统运维理论指导则包含八个主要方面。
1.设备管理,主要是对网络设备、服务器设备、操作系统运行状况进行监控和管理;
2.应用/服务管理,包括各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
3.数据/存储/容灾管理,主要针对系统和业务数据进行统一存储、备份和恢复;
4.业务管理,包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理, 主要关注该业务系统的 CSF(关键成功因素 Critical Success Factors)和KPI(关键绩效指 标Key Performance Indicators);
5.目录/内容管理,该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理,如企业门户发布的对公对私的公告、行文等;
6.资源资产管理,管理企业中各 IT 系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的;
7.信息安全管理,目前信息安全管理根据国际标准涵盖了信息安全管理的十大控制方面,36个控制目标和 127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
8.日常工作管理,主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段.
IT系统运维是一项系统的工程,内容虽然繁多,不是三言两语的简单描述就可尽收与本文。理论毕竟是对具体工作的指导,但明确了工作的重要性和复杂度,能更好的帮助企业规划自身的运维工作,尤其是长假期间运维工作。
盘点系统、设备,规划运维点
平日中IT系统的运维工作纵然有完善的巡查、记录体系,但遇到长假运维人员不能像正常工作日一样不停的关注系统运行的状态,因此需要彻底清点盘查系统和设备。清点不意味着简单计数,常见的有以下几方面:
1.盘点计数,包括有多少套应用/服务在运行中,多少应用可以再长假期间停止服务。另外,还应业务系统中流转的业务流程数等能够量化的业务数据;
2.盘点状态,主要针对应用/服务和设备两方面,前者在停机前是否是完整系统、版本号、是否在此次停机过程中部署更新等状态信息,后者主要记录硬件设备环境及运行状态如内存、硬盘状态是否有损坏更换等;
3.规划压力调整设备投入,根据业务在长假期间不间断服务要求,结合平时休息日业务系统的压力进行预估,规划设备投入量保证业务不间断的基本要求。
4.规划运维等级和工作分摊,按照工作日正常运维工作等级适当调整级别和工作分配,将必要运维工作进行分摊,尽量减少人员的直接占用。
5.规划设备检修更换,针对硬件设备的更换在很多要求IT服务7*24小时的企业中多半会在夜间进行,也有的设备因为应用的重要性和压力等原因在某些硬件设备允许的情况下是带病工作的,因此可以规划长假前将存在隐患的硬件设备进行维护与更换。
6.规划UPS承载,UPS全称Uninterruptible Power Supply顾名思义不间断电源,在长假期间难免遇到突发情况,UPS的作用不言而喻。因为在工作日服务器全部运转情况下UPS可能维持几十分钟或几小时,而在长假期间能够保证多少台服务器运转多少时间是需要根据实际情况重新计算并规划的。#p#
案例分析:
图1是国内某出版机构在很多IT系统中逻辑结构比较线性的“图书资源管理与发布系统”的逻辑模型,其中最前端的是“发布与存储系统”采用2U服务器挂载磁盘阵列服务器的简单模式实现。工作日期间该完整系统的维护人员保持4人左右的团队规模,而长假期间经过盘点发现:
1.长假期间资源数据来源停止转换数据;
2.资源维护系统无新数据可维护,老数据可以安排长假结束继续完成,系统可以暂停;
3.三方数据公司属于第三方机构无法安排加班等因此无介入数据,系统也可暂停;
因此,只有“发布与存储系统”和“安全监控系统”需要运行。而“安全监控系统”又与机房内其他应用服务的监控是整体部署,由于业务需要前端系统需要保证长假期间不间断服务,因此实际上仅需要单独维护“发布与存储系统”。如果没有盘点确实很难在众多系统中正确辨明真正需要长假期间维护的系统。
▲图 1出版机构资源管理系统
总之,IT系统运维是一项系统工程,按照IT运维理论中要求的其实远不止上述6点需要盘点规划的地方,但是企业是经营之所,要根据自身情况平衡长假期间投入的资源能力而量力而行。切忌长假期间没有业务使用但仍然开机运行不予维护,很多安全问题尤其是信息安全重大问题往往就在这个时刻发生,所以长假期间的盘点与规划是必须落实的。本文仅以盘点软件应用和硬件设备方面抛砖引玉,后续会有更详细分析与落实的报道,让长假成为IT运维工作的一个部分,长假前不再让运维部门抓耳挠腮,长假中不再让运维部门从上到下忐忑不安。
【编辑推荐】