如今,几乎所有的企业组织都在采用某种形式的云计算。这些努力包括将应用程序或工作负载首次转移到云计算平台,将云和本地活动融合到混合云平台,或基于微服务和API的云原生应用架构。
在所有这些变体中,帮助企业组织确保其服务和应用的性能和可用性的传统工具都失败了。越来越多的人需要更现代化的工具来提供更好的可观察性和对正在发生的事情的洞察力,以及基于人工智能的辅助来帮助确保持续可用性和一流的性能。
当前有几个问题推动了对现代工具的需求。首先,组织在云环境上部署应用程序和运行工作负载的复杂性增加。
即使是一个简单的应用程序,比如为用户帐户提供移动前端,也会涉及到企业维护的后端元素、公共云上的数据库、通过用户提供商的连接,以及任何一个主要的移动操作系统。各种元素之间存在许多相互依赖关系,业务部门对大多数可能影响性能或可用性的元素几乎没有控制权。当出现问题时,可能需要花费大量时间来确定中断的来源。使用AIOps的现代可观察性工具可以帮助自动化根本原因分析,加速停机或其他问题的修复(MTTR)。这可以显著减少修复/恢复的时间。
第二,企业组织不能再被动,在问题发生后采取行动。传统的IT管理方法是等待来自客户或内部用户的的关于服务中断或服务质量差的投诉电话。AIOps提供了一种更具有预测性的操作模式。其支持一种主动的方法,可以发现丢弃或重发数据包的增加,以及其他性能不佳的指标,并实时采取纠正措施。
第三,当应用程序和服务使用多个云元素交付时,安全性将更具挑战性,其中一些云元素不受企业的控制。有了现代的可观察性工具,安全团队可以使用AIOps来发现异常,这些异常是攻击或预示数据泄露的活动的前兆。例如,AIOps可以用来提醒安全团队,有大量的数据正在通过一个通常很少使用的端口从组织中发送出去。
持续可用性对于满足最终用户的期望至关重要
应用程序性能和可用性对于任何组织都非常重要。员工有一定的期望,即他们完成工作所需的应用程序和服务能在他们需要的时候随时可用,并且表现良好。
同样,如今任何面向客户的应用程序或服务都面临着更苛刻的用户期望。由于人们习惯于在需要的时候立即获得任何东西,所以对于那些无法获得或性能较差的产品,几乎没什么容忍度。
许多研究已经量化了任何问题对底线的影响。40%的用户会放弃加载时间超过3秒的网站,53%的用户会放弃无法在3秒内加载的手机应用。
如果某个网站或手机应用无法使用或表现不佳,用户就会放弃该网站或应用。这就会导致收入损失。例如,在线购物的客户只需跳转到另一个商家的网站下一次性订单。如果客户在该网站上有良好的体验,那么他们可能永远不会再回来了。所以,这不仅仅是一次购买的损失。这可能意味着失去一个终身客户。
相比之下,缓慢的性能推动着业务的发展。Google对该问题的一项经典分析发现,53%的用户放弃了加载时间超过3秒的站点。事实上,网站和移动应用的性能非常重要,Google现在把这两个因素都纳入了SEO排名。这同样会对财政收入产生严重影响。想象一下,从页面上的Google排名第二下降到搜索结果的第一页,那么当客户寻找其产品或服务时,永远不会看到这家公司。
现代商业所需要的工具
如今,持续可用性和优化性能至关重要。确保两者兼顾的一种方法是使用可观察性与AIOps相辅相成,AIOps是任何数字组织在云环境中运行时都需要全天候运行的基本层。
AIOps是部署机器学习来跟踪来自传感器、轨迹、日志和其他来源的数据,以防止内部和外部中断,无论是通过事件关联还是异常检测。其还可以通过确定伤亡人数来更好地分析事件发生的原因。
高级AIOps平台汇集所有数据——指标、跟踪、日志、更改和事件——以实现快速、准确的报告和分析。与过去的、基于规则的技术不同,这种方法可以对部分证据进行操作,并在问题变得严重之前发现问题。AIOps还使用机器学习来分析事件,了解如何在事件生命周期的早期发现问题,并确定推动持续可用性的模式。
考虑到2022年基于云计算的数字组织的复杂性,以及多层微服务和临时架构,AIOps对于寻求确保应用和服务可用且性能良好的努力至关重要。