组织如今很容易找到并应用具有机器学习(ML)、自动化和人工智能(AI)功能的技术平台。一旦Devops成为主流,就会培育流程、技术和IT文化,其中包括Cloudops、Dataops、Sysops和AIops。
有人怀疑在IT运营中应用机器学习是否可以带来业务和IT价值。有这种疑问是正常的,但是不要为此感到惊讶。AIops是在2021年可能得到提升的Devops功能之一。
在过去十年中,IT环境变得更加复杂,其中包括公共云和私有云的应用,支持物联网(IoT)的边缘计算基础设施、大规模数据库上的机器学习实验、新集成、应用程序的频繁部署、关键任务遗留系统以及大量微服务。在IT控制之外还存在许多变量,例如安全事件、不同的最终用户计算配置以及易变的应用程序使用模式。
如果组织的工作是响应事件、解决应用程序问题、执行根本原因分析、诊断复杂的用户问题、验证操作风险、识别安全弱点或预测计算成本,那么这将面临一个具有挑战性的环境。
这就是AIops解决方案可以提供帮助的地方。以下介绍不同的解决方案如何实现数据清理、分析、机器学习和自动化,以简化IT运营并促进业务开展。
六家AIops解决方案提供商对AIops为业务和IT部门解决的问题,他们的解决方案中使用了哪些类型的机器学习算法,以及他们的产品如何支持自动化进行了阐述和分析。
Devo公司提供实时操作和安全可见性
Devo公司IT运营和可发现性高级总监Paco Huerta表示,AIops可以帮助IT团队解决最终用户问题。Devo公司的人工智能系统在大规模的混合环境中提供了自动的、全面的场景见解,使运营人员能够在最终用户受到影响之前查明问题的确切原因。
IT部门承受着不断的压力,Devo公司帮助他们迅速找到问题的根本原因并评估风险。Devo公司采用了多种开源工具和专有机器学习算法,其中包括时间序列异常检测和用于开发和部署模型的机器学习工作台。Devo公司的模型可以不断学习并快速适应。
Micro Focus公司旨在查找并修复IT运营问题
Micro Focus公司AIops产品营销经理Michael Procopio表示,“全栈AIops可以帮助IT部门筛选庞大的数据集,以发现并解决问题。当今的IT环境所产生的数据量超出了人类的处理能力,而机器学习可以将数百个警报或数百万个日志文件精简到运营人员能够轻松处理的几个问题,而自动化是更快地解决这些问题的关键。我们称之为全栈AIOP,因为将两者结合起来可以提供一个解决问题的解决方案,几乎不需要人工干预。”
Micro Focus公司的AIops解决方案包括Operations Bridge,它收集所有事件、度量和日志,包括来自200多个第三方工具和技术的系统补丁和合规性数据。然后,它将服务映射、拓扑和依赖关系数据关联起来,以构建准确的业务服务模型。
该平台利用无监督的机器学习,其中包括聚类、回归、推断统计、自定义逻辑和季节性算法。它还利用运营人员反馈来提高系统精度和指导未来的行动。
Moogsoft公司增强了IT运营人员的认知能力
Moogsoft公司首席技术官Will Cappelli强调说,“IT运营需要采用人工智能技术跟上由开发人员驱动变更的快速步伐。现代IT系统表现出复杂的行为,并且在持续集成(CI)/持续交付(CD)频繁部署的变化压力下,其组件和连接拓扑结构不断变化。需要人工智能来理解自我描述性数据,其中包括日志、事件记录和现代IT系统生成的指标;预测问题和中断;并支持对人工智能技术所解释的信号所揭示问题的响应的执行。”
Moogsoft公司的人工智能系统依次执行多项功能。它从日志文件和其他操作系统聚集的噪声背景中提取高信息数据集。然后在那些高信息数据集中发现相关模式,并确定哪些相关是因果关系。最后,它有助于自动执行响应。
Cappelli指出,AIops将直接影响组织的收入和品牌声誉。当智能响应是机器人时,它会缩短影响客户和员工的事件的平均恢复时间(MTTR)。
OpsRamp公司帮助IT部门达到服务水平目标
OpsRamp公司事件管理和自动化的首席产品经理Neil Pearson指出,AIops中的自动化可以帮助IT部门更好地执行工作,这有利于组织开展业务。他说,“AIOps是包括机器学习、深度学习和机器人流程自动化(RPA)在内的各种人工智能技术的应用,可以自动执行复杂、人工密集的重复性任务。它通常涉及从不同来源和不同格式提取大量数据。我们专注于检测异常、预测和防止从最初发现资源到解决问题的重复警报和事件。这使人们的工作水平明显提高,并帮助组织的业务发展得更好。”
OpsRamp公司从多个数据源(如指标、日志、网络数据包和跟踪)中提取并处理大量数据集,以确定问题的根本原因。它使用深度学习和自然语言处理算法来消除噪音,通过提出解决问题的建议确保其不再重复来协助操作。OpsRamp公司可帮助IT设计自动响应策略,从而减少人工干预,并根据业务影响对问题进行优先排序。
Resolve公司助力敏捷的自主IT运营
Resolve公司首席执行官Vijay Kurkal认为,使用人工智能和自动化来消除问题和解决方案之间的循环,“自我修复IT”可以成为现实。他说,“AIops工具可以快速识别现有或潜在的性能问题,发现异常情况,找出问题的根本原因,甚至可以预测未来出现的问题,从而在业务受到影响之前触发主动修复。通过将人工智能的见解与自动化结合起来,组织可以最大限度地发挥这些技术的价值和潜力,并创建一个发现、分析、检测、预测和自动化的闭环,从而使组织更接近于自我修复的IT。”
Resolve Insights可以自动发现应用程序和基础设施,生成丰富的拓扑图,并确定业务关键型应用程序和基础设施之间的依赖关系。了解这些关系可以使故障排除更容易,并有助于全面的IT管理,为复杂的跨域环境提供了一个单一的视角。该数据可以在近实时地被自动推送到配置管理数据库(CMDB),确保准确的库存信息,并创建一个强大的IT服务管理(ITSM)基础。
Resolve Insights利用许多机器学习算法,其中包括异常检测、事件模式识别和预测算法。其目标是通过改进关键应用程序和基础设施的性能、最大限度地延长正常运行时间以及提供有助于优化工作的见解,来增强客户和员工体验。
Splunk公司帮助IT管理复杂的操作环境
Splunk公司首席技术官Andi Mann建议,IT人员必须超越传统的运营模型,应侧重于数据驱动、拥抱自动化以及致力于服务交付实践的模型。
他说,“随着现代方法加速技术在全球电子市场中的采用和参与,现代系统的复杂性太高,人们无法有效地进行管理,而传统IT运营技术也无法保持满足需求。只有采用数据驱动的方法,并应用高级算法处理、机器学习、人工智能、响应自动化和工作流程编排,服务交付团队才能应对这些新的复杂性。Splunk公司通过采用AIops解决了这些挑战,为ITops、可观察性和安全性提供了一种数据驱动的方法,以确保其业务和客户所需的性能、可用性、功能性、稳定性和影响。”
Splunk采用“白盒”方法进行机器学习,并预先填充了30种算法,用于异常检测、分类、聚类、交叉验证、特征提取、预处理、回归和时间序列分析。它还具有来自scikit-learn、pandas、statsmodels、NumPy和SciPy库的300多种开源Python算法。
AIop对于所有IT团队来说是很大进步
当客户和员工将问题上报时,人们知道必须让系统和应用程序监控器就位。当出现重复事件类型时,组织制定了行动手册和标准操作程序来解决这些问题。在可能的情况下,可以构建脚本来重新启动Web服务器、清理数据库空间,并从主存储系统归档原有文件。
如今的规模、复杂性和服务期望都要求IT加速这些规程,而这正是AIops解决方案所要解决的问题。AIops平台集中和清理操作数据,利用机器学习查明不同的问题,并提供一个自动化解决方案的框架。其最终目标是提供更好的体验,减少工作量,并释放IT部门的精力来开展更具价值的业务。