对于大多数依赖 IT 系统来支持任务关键型业务应用的企业而言,信息技术 (IT) 运营管理是一个令人头疼的问题。
尽管工程师本着良好的初衷,进行了巧妙的设计,采用了可靠的开发实践,但部署在企业中为关键业务应用服务的软件和硬件系统还是很容易出现中断,每年都会造成数百万美元的劳动力和收入损失,以及引发客户的不满。
为了更准确地预测 IT 宕机情况并做出回应,IT 团队着手筛选从拓扑、日志、凭单和警报等来源中提取的数据。但是,即使有了这些不同的数据源和杂乱的工具,团队仍然无法从单一的共享视角来解决宕机问题。幸运的是,IBM Cloud Pak for Watson AIOps 可以为您实现这一切!
日志异常预测
Watson AIOps 最新的日志异常检测技术正在申请多项专利,它能够从日志聚合工具(例如 Splunk、Humio、LogDNA 和 Logstash)中自动解析 IT 应用和基础架构日志,以便实时自动检测异常。这比基于阈值或错误字符串匹配类型的传统警报技术要快得多,因而大大缩短了诊断事件的平均时间。我们使用深度学习算法在日志解析过程中从日志中提取特征,并进行异常预测。用户不必设置静态阈值或手动规则来检测异常。它会积极地让 IT 运维人员参与进来,诊断异常并解决事件。此外,它会解释通过您选择的 IT 工具集揭示出的洞察,这样 IT 运维人员就可以在未来自动解决相同类型的事件。
指标异常预测
Watson AIOps 基于指标的异常检测技术可以分析来自各种系统(例如 New Relic、AppDynamics 和 SolarWinds)的指标数据,自动了解企业中指标的正常行为,并检测其中的异常。它采用一套久经验证的时间序列算法来捕获季节因素和重要趋势,并执行预测。
事件分组
事件表示 IT 运营环境中发生了值得注意的事情。例如,应用不可用或磁盘容量已满/空间不足等。事件分组和分类的目的是帮助 IT 运营管理人员减少干扰,让他们集中精力解决一些需要及时关注的重要事件。Watson AIOps 使用多种算法(例如时间、空间和关联规则挖掘)对从指标、日志和凭单中检测到的异常进行分组,从而实现事件分组。
静态和动态拓扑管理
应用和网络拓扑是指一种映射或图表,它显示了企业中不同任务关键型应用之间的连接情况。静态拓扑是指一种基于以上构建而构建的映射,并部署了应用和基础架构组件信息。反之,动态拓扑是指一种动态映射,随着环境在运行时发生变化,它可以捕获资源及其关系,并提供近乎实时的相同可视性。
通过使用 Watson AIOps 中的拓扑管理器,您可以将当前拓扑与历史拓扑进行比较,从而回答“发生了什么事?”和“正在发生什么事?”之类的问题。它可以帮助您调查导致事件发生的详细信息,并查看拓扑(和状态)随时间推移的变化。此外,可以在拓扑上确定故障位置。
故障定位和爆炸半径
实体提及是在异常日志、警报、凭单和事件中引用的资源名称(例如,服务或应用组件名称、服务器名称、服务器 IP 地址、pod ID、节点 ID 等)。对事件进行分组后,将会提取异常日志、指标、警报和事件中的实体提及。可以使用拓扑资源来解析这些实体,以便找到问题,并将识别出的实体放在相应的动态拓扑实例上,这些实例与实体提及被发现的时间相匹配。通过遍历应用、基础架构和网络层中的拓扑图,我们能够确定受影响的组件,称为爆炸半径。
事件解决
Watson AIOps 通过连接到 ServiceNow 之类的工具来提取和挖掘先前的事件凭单数据,从而针对当前诊断出的问题提供及时且相关的最佳行动建议。当前事件特征可以用于查询有索引的凭单数据,不仅可以搜索和检索最重要的相关先前事件记录,还可以从每条相关记录中提取重要的实体与操作(又称名词加动词)短语,以便 SRE 轻松快速地了解建议的操作。我们应用各种自然语言处理技术来提取实体与操作短语,包括基于规则的系统。
交付洞察和实施操作
在 Watson AIOps 中,上述所有洞察都是通过 ChatOps 和仪表板来提供。实时洞察通过 ChatOps 直接交付到 SRE 所在的工作地点。ChatOps 除了可以探索洞察证据外,还支持与其他协作者进行交互,分享精选的事件解决建议。通过 ChatOps,SRE 可以启动日志、指标和凭单监控工具,了解更多详细信息。同样,SRE 还可以启动交互式仪表板,详细探索事件、事件组、指标异常和拓扑。然后可以通过 Runbook 执行来自动运行适用的操作/运行手册。
关于人工智能模型生命周期管理的说明
Watson AIOps 采用一组具有代表性的指标、日志和凭单数据,用于训练和构建无监督模型。这些模型被设置为通过使用环境中的最新数据来持续学习,并根据用户反馈进行改进。为了赢得信任,所有人工智能模型都具有透明和可解释的特征,在 AI 预测和模型中提供信任和透明度,仍然是全球企业最关注的问题。
Watson AIOps 中的 AI 管道。
Watson AIOps 下一步将何去何从?
在下几代 Watson AIOps 解决方案中,我们构想了这样一种 IT 运营环境,它不仅功能齐全,可观察,具有自我意识,而且实现了自动和自主操作。AIOps 解决方案不仅能够以被动响应模式帮助解决问题,还可以通过从一开始就设计“开发、安全和运营 (DevSecOps)”生命周期活动,实现高效运营,提前避免发生问题。例如,智能检查和关口可以防止有风险的部署进入生产环境,阻止未经充分测试的代码模块以及带有危险安全漏洞的代码进入部署阶段。我们迫不及待地想要塑造未来,邀您与我们一起踏上这段旅程。
了解更多IBM相关:http://cloud.51cto.com/act/ibm2021q3/cloud#p2