成功构建和部署AIOps的三要素

人工智能
AIOps(人工智能 IT 运营)利用大数据和机器学习(ML),以人类无法达到的规模和速度进行预测、识别、诊断和解决IT问题。

​如今,随着大数据在商业的各个方面应用激增,IT团队面临着处理运营的巨大数量和复杂性的艰巨任务。因此,企业对AIOps的需求正在增长。

AIOps(人工智能 IT 运营)利用大数据和机器学习(ML),以人类无法达到的规模和速度进行预测、识别、诊断和解决IT问题。

私募股权和风险投资公司Insight Partners最近的一份报告估计,从2021年到2028年,AIOps平台市场规模将以32.2%的年复合增长率递增,从2021年约28.3亿美元增长到2028年的1993亿美元。也就是说,有效的AIOps解决方案不会在一夜之间实现。

一个完整的AIOps解决方案来自于一个经过长期完善的解决方案,包含三个基本成分:数据、分析和不同领域的专业知识。

数据

没有数据,成功的AIOps是不存在的,这个部分至关重要。虽然数据供应充足,但挑战是以可用的和可靠的形式获取数据。AIOps依赖于来自不同来源(例如网络性能、业务系统和客户支持)的数百甚至数千个数据点,这些数据点都以秒为单位生成,在很多情况下甚至是次秒级速率。如何处理大量的数据可能会造就或破坏AIOps解决方案。就速度、成本效益和最高效率而言,在设备内和设备外数据管理的分离管道会产生最好的结果。

传统的单一内部数据处理模型已经不能适应当今数据集的复杂性和容量。相反,应该考虑将数据处理漏斗构建或重新架构为两部分:一个精简的、快速的处理管道,通过实时的、内部部署的数据总线来处理时间关键分析,另一个更健壮的通道来分析云中的剩余数据。将内部数据生产减少到最低限度,并分配云(配备弹性计算和更复杂的存储能力)来处理剩余的数据,从而实现更快、更经济的数据合成。

同时管理内部和外部数据的分离管道模型可以增强组织每小时处理数百万数据点的能力。机器学习(ML)算法可以帮助确定每个管道传入数据的优先级,并将原始的非结构化数据转换为对客户服务或IT运营团队至关重要的可用指标。从双管齐下的系统中获得的效率和速度也使组织能够部署增强的监控能力,以获得关于网络性能的实时可见性和长期趋势信息。

分析

AIOps成功的第二个关键因素是分析。AIOps的分析分为两个阶段,包括探索性分析(从原始数据中筛选需要额外检查的趋势或异常)和高级统计分析(转化为可操作的见解)。尽管探索性研究扮演着不可或缺的角色,但当数据通过管道输送时,工程团队往往会迫不及待地跳到高级统计分析。绕过这个初始阶段可能会导致数据偏差——向AIOps过程注入偏差,并错误地识别问题,从而使AI/ML算法变得无用,并导致不良的操作后果。

探索性分析依赖于ML和数据科学家来识别和确定至关重要的具体指标。在这个过程中,IT团队可能会倾向于ML——这是一种令人兴奋的高效技术。但是单纯的ML并不总是最有效的分析方法。ML试图基于一组特定的参数来解决一个特定的问题。工程师根据他们认为得出A、B或C结论所需的指标来编写ML算法——从而排除其他可能的解决方案或统计数据。

相反,统计学家和数据科学家检查原始数据时并没有考虑具体的结果,而是检查数据的模式或异常。手工数据审查虽然繁琐,但专家可以确定直接的IT解决方案,而不需要高级的统计分析。

当团队确信在探索阶段确定的趋势或异常是正确的,他们可以继续进行高级统计分析和训练AI/ML算法。即使是AI/ML也需要试错测试,不会立即产生结果。每个AIOps解决方案的背后都有一个领域专家团队,他们对AI/ML模型进行广泛的调整和测试,以确保AIOps的成功。

不同专业领域

成功实现AIOps的第三个要素是领域专长。在AIOps的创建中,没有太多的经验可以借鉴。在任何企业中成功部署AI都需要不同领域专家的参与。例如,在网络操作领域,网络工程师了解ML系统的细微差别和必要的AI算法,以准确地解决特定问题。与此同时,非技术专家带来了特定行业的知识,如数据集的来源和可用性、业务策略和操作。大量的领域专家确保AI/ML算法反映真实世界的操作,提供关键的结果验证,并作为检查错误方法或意外后果的重要工具。例如,正在进行计划维护的通信系统可能表现出通常表明问题状态的行为(如极低的网络流量)。在模型预测中添加一个与维护票务系统通信的业务逻辑层可以消除这些错误警报。

领域专家扮演着重要的角色,他们可以向渴望获得AIOps解决方案的高管听众进行解释。ML倾向于在黑箱中操作,使团队无法清楚地说明模型是如何做出特定决定的。这可能会导致企业高管对基于人工智能驱动的洞察力和行动的怀疑和犹豫。另一方面,可解释的人工智能能够获得不熟悉AIOps的商业领袖更强的认同和信任。

AIOps需要三种核心原料,但是,就像任何食谱一样,这些原料的质量以及它们放在谁的手里,将决定最终的结果。试错是创新过程的一部分,特别是在训练ML的复杂艺术中。确保正确地处理数据,使用正确的分析类型和吸引领域专家将帮助企业提供成功的、可扩展的AIOps解决方案,以满足日益增长的运营效率的需求。


责任编辑:华轩 来源: 今日头条
相关推荐

2010-08-04 11:15:22

Flex事件处理

2012-07-30 13:15:18

代码

2021-06-29 10:46:19

网络钓鱼网络攻击网络安全

2013-03-15 09:59:13

创业创业基础创业成本

2011-06-29 17:51:55

SEO外链

2013-09-02 11:04:00

优秀视觉交互设计设计

2024-01-07 16:34:45

2010-09-08 13:40:48

CSS

2009-07-17 17:32:09

BSM企业IT与业务摩卡

2019-09-02 14:36:03

2013-07-05 15:14:06

程序员

2011-08-10 09:02:22

SaaS云计算

2014-06-26 14:08:28

Azure云服务

2011-08-12 11:20:30

网络虚拟化存储

2010-09-07 11:05:34

CSS边框

2014-08-05 14:38:59

移动互联网

2020-12-31 23:38:33

AIOpsIT运营

2017-06-16 14:09:47

数据备份超融合融合数据保护

2021-06-15 07:32:59

Cookie和Sess实现跨域

2022-05-28 10:44:43

云成本云架构多云
点赞
收藏

51CTO技术栈公众号