在多年之网络管理软件开发和项目实施中,我接触了许多之一线工程师,并专门拿出时间和这些每天出入在机房之工程师沟通,收集他们在管理工作中遇到之实际需求,专注于将令其“头痛”之问题通过SiteView集中解决。
针对各种悬在头顶之难题,我总结出了网络管理七大实战兵法,希望可以给您一些启发。
第一计:重中之重——关键业务流程
需要监测之关键业务流程包括:1、单位内部之关键业务流程。如项目管理信息系统、生产管理信息系统等。2、网络吞吐量大之业务流程。主要是一些复杂和交互式之业务流程,资金集中管理系统、公文流转系统等。3、对系统造成大之压力,频繁使用数据库之业务流程。4、同其它系统集成之业务流程,这些集成会提高应用失败之风险。
这些业务系统庞大而牵涉面众多,需要一个综合业务管理平台进行整体之监测整合。好之解决方案是引进网管系统,对业务系统是否正常运行、各项具体参数指标是否超标等进行精确掌控,避免或降低业务系统故障之发生率。
第二计:用户体验同系统性能指标相关联
在制定监控策略时,应该考虑将网络中之所有网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙之监控,从而判断哪里出了问题导致公司网络畅通运行。信息服务管理网之网管工程师通过使用SiteView网管工具收集网络运行信息,将性能数据同单位内部用户之体验相结合来分析网络之性能状况,诊断系统瓶颈。
第三计:建立网络运行基准指标并观察趋势
长期监测并建立基准指标对于保持网络和性能之正常性能水平是非常必要之。通过对网络运行之观察,运维工程师可以知道网络性能之变化和流量等指标之运行趋势;及时发现网络偏离系统基准模型时之异常状况,分析是单一故障,还是严重问题之前兆,达到预警之目之,防止更严重问题之发生。
第四计:设计报警策略,避免警报泛滥
报警是管理网络和业务系统最重要之功能之一,配置报警之依据是根据信息服务管理网之网络运维目标,报警设置之原则:1、对影响网络和业务之重要指标设置报警;2、消除误报和重复报警;3、报警应该以多种方式及时发送给相应之运维工程师。
第五计:创建自动化、规范化事件处理程序
信息服务管理网运维工程师人员少,日常处理事务较多,他们需要在网络、链路和系统运行出现问题时能够有自动化、规范化之处理问题程序,快速处理各种潜在故障并且分配他们到合适之管理工程师,帮助他们提高工作效率。建立规范事件处理程序之另一个好处,是将工程师长期积累之知识和工作经验系统化和固化,达到快速定位故障之目之。
第六计:网络服务质量SLA之量化管理
提高服务质量之第一步是设立量化指标,将其作为整个网络运维管理团队之整体目标。信息服务管理网网络性能管理之总体目标包括网络和设备、业务之可用性、网络之吞吐量、带宽使用百分比、网络延时、CPU和MEMORY之负载,对于不同之网络指标还要根据网络之上下级连接关系分解到每一个子指标,作为对网络故障诊断和性能管理之依据。
第七计:制定网络之升级和改进策略
网络之升级和改进应该以对现有网络和系统性能数据之测量为前提,以对网络整体运行之现状及趋势分析为依据。通过对单一网络系统和整体网络系统性能数据之比较、单一网络组件和其它网络组件之数据比较、系统负载量最大时之性能数据和一般负载时之性能数据之比较等,判断是否需要对系统之局部或者整体进行升级,发现网络系统性能之瓶颈,提出网络系统改进之方法。
【编辑推荐】