随着IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,数据处理量成倍增长,企业不得不引入更多的工具、更复杂的流程,来提升IT系统管理的精细度,随之而来的是IT运维师的压力越来越大。
首先,部署大量的系统造成了告警源越来越分散,每个告警之间呈现出分散式、孤岛式,导致告警无法统一管理。同时,告警的来源分散和不统一,导致了告警处理流程无序,缺乏统一处理,统一通知,无法标准化处理。而为了保障运维的安全,企业往往部署更多的监控,这样一来,产生的告警就会越来越多,这些告警中往往会有大量重复的、冗余的告警,运维人员在处理告警的时候无法快速定位到这些告警的关键信息,给运维人员对告警的判断和处理带来了巨大压力,因此急需一个能够帮助客户解决以上问题的运维监控统一管理平台。
日前,博睿数据研发了一款全场景运维监控统一接入、海量告警降噪收敛、故障统一分析管理的新一代告警平台产品——OneAlert,凭借统一化、标准化、智能化告警管理,为企业降低运维成本、提升工作效率,为业务的稳定运行保驾护航。
博睿数据产品经理郝宁从统一化、标准化、智能化三个方面详细介绍了OneAlert的核心优势和价值。
多源事件统一接入
OneAlert实现了四类监控工具的统一接入:首先是云类监控工具,包括常见的三朵云:阿里云、腾讯云、华为云等。第二类是博睿数据自研的监控工具:APM Server、NET、SDK。第三类是运维过程中常用的开源监控工具:ZABBIX、Prometheus等。第四类是自建平台、自定义的监控工具REST API。OneAlert平台支持对主流运维监控告警源提供统一接入功能,对这些接入后的多源异构数据提供完整统一的标准化映射处理,实现了全场景下运维异常事件监控全覆盖统一接入,避免了因自身监控数据相互独立导致的重大事件无人发现的监控死角。
运维故障标准处理
据郝宁介绍,当接入多来源的告警数据后,OneAlert平台支持提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况,从而提升了异常事件的处理效率。同时,OneAlert支持针对不同的通知要求选用不同的通知方式,实现了将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响。最后,OneAlert支持对故障进行处理跟踪,实现故障生命周期的闭环管理,使运维故障处理从以前的无序到有序流程化,提升一线运维人员、运维管理人员的整体工作效率。
海量告警智能收敛
OneAlert平台通过对海量杂乱事件降噪处理,形成告警,降低了故障分析的信息量,并通过自定义标签规则收敛、标签AI相似、AI时域的AI智能决策收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。
其中,AI算法智能收敛实现了AIOps多场景的有效支撑,从根本上解决了规则收敛的瓶颈问题,同时还支持收敛组合自定义搭配使用,在规则收敛的基础上开展AI能力收敛探索(AI相似+AI时域),使得收敛场景更全面、收敛能力更强大、收敛效果更显著。
基于数据处理的领先优势,OneAlert在告警收敛过程中除了固定标签收敛,还支持自定义标签作为收敛条件进行告警收敛,有效避免因海量杂乱告警产生的告警风暴。
总之,OneAlert提供了完整的标准化分析处理管控能力,实现了对故障(事前)及时发现、统一管理;(事中)快速响应、精准处置;(事后)分析统计的标准化全生命周期完整管控。
积极打磨产品,推动产品国际化
谈到国内的应用性能观测产品与国际厂商的产品的差距,博睿数据产品总监孙丽表示,国内的应用性能观测产品基本具备了同等产品能力,但是在技术深度和技术领先性上,尤其是在AI的应用方面,还需要追赶。此外,在将新兴的技术和能力转化为产品的效率方面,如云原生网络的可观测性等,是国内的应用性能观测产品需要学习的一个方面。
在信创的大趋势下,博睿数据的应用性能观测产品在服务器、操作系统、数据库中间件等层面做了很多适配,支持大部分主流厂商,也已经在政府客户中开始落地。
在标准方面,博睿数据积极参与了工信部、信创工委会等标准制定。孙丽表示,这些标准将对中国的产品走向全球化是非常重要的。