在互联网和数字化成为全球经济增长新引擎的今天,企业管理和业务运行与IT系统健康息息相关,高效的IT管理能帮助企业在瞬息万变的市场竞争中获得快人一步的竞争优势。然而云计算、虚拟化和微服务技术的应用使得企业IT系统越来越庞大而复杂,要满足高性能的业务运行需求绝非易事。
特别是为了提升用户访问体验而广泛采用的分布式应用系统和CDN资源,以及越来越复杂的网络接入环境,使得IT部门很难第一时间发现IT故障的发生。企业为了保障系统的高可用,降低故障率,往往会进一步扩大IT系统规模,于是业务增长越快、IT规模越大,IT管理的负担越重。
在2016年,Gartner针对IT发展和运维管理的困境,提出了一种全新的运维管理方法,以减轻企业IT的负担,提升管理效率,这就是AIOps智能运维。AIOps是Algorithmic IT Operations的缩写,从字面上看是一种基于算法的运维方式,区别于传统的人工运维和自动化运维,通过基于运维大数据的机器学习,用智能决策逐步取代人工决策,提升IT管理效率,因此国内业务运维企业云智慧把AIOps称为智能运维。
AIOps的落地,将把日常的IT管理工作移交给拥有机器学习和自动化运维的智能运维平台,大大降低企业管理的时间成本和资金投入。而运维管理人员也可以从筛查海量告警信息、执行重复性巡检任务、人工判断故障、手动解决问题的低效工作中释放出来,专注于构建更加高效、高扩展的IT系统,支持企业的数字化业务发展,这也就是业界所倡导的“IT从运维到运营”之路。
AIOps智能运维平台还能有效预测潜在的IT故障,并在无需人为干预的情况下提前解决掉这些问题,而应用系统故障率的降低,将有效提高云计算资源的使用效率。这得益于机器学习和深度学习算法在IT监控和应用性能管理系统中的持续积累,不断记录IT运维人员在不同场景下使用故障排除或修复基本问题的自动化工具的操作。当针对不同型号设备、不同应用系统、不同的云平台的学习样本数据足够丰富时,AIOps智能运维平台就可以自动评估系统的健康状态,如CPU使用率、磁盘吞吐率、设备故障率等,如果发现了系统的异常活动,就能提前自动触发相关运维操作。
企业采用AIOps的能力不仅取决于IT监控系统的数据规模和自动化系统的可用性,还取决于人员和流程的一致性。服务商可以在很短时间内把AIOps智能运维平台部署到企业,但任何管理转型都不是安装一套系统那么简单,需要根据业务特点对人员和流程进行调整,而这往往需要更多的时间。
要衡量AIOps智能运维平台在企业中的实施效果,可以重点关注两项关键指标,平均故障恢复时间(MTTR)和事务(故障)处理数量,这两项指标反映到客户满意度上,就是AIOps的价值。
以机器学习、深度学习为代表的人工智能技术的成熟,为利用IT手段持续改善企业经营水平和服务质量铺平了道路。而AIOps以IT大数据为切入点,率先解决了所有数字化和互联网+转型企业所面临的业务与IT系统断层的问题。虽然大多数机器学习项目可能需要多年才能看到价值,但AIOps平台可以用最小的代价为企业运营带来卓越的投资回报。同时,这笔投资可以长期持续的提供业务价值和提升用户口碑。