五步跨越事件管理中的运营鸿沟

开发 前端
从反应式到主动式事件管理跨越运营鸿沟,对于降低运营成本和节省团队能力以加速创新至关重要——即使面对意外挑战,也能提供卓越的服务。以下五个步骤可以帮助组织开始走向运营卓越的旅程。

通过从传统的、被动的运作方式转向主动的、自动化的事件管理,组织可以更高效、更智能地工作。

译自5 Steps To Cross the Operational Chasm in Incident Management,作者 Debora Cambe。

构建具有弹性的运营,确保高可用性和可靠性,对于维护客户忠诚度并最终实现业务增长至关重要。根据近期研究,十分之九的IT领导者认为,中断或故障降低了客户对其组织的信任度。

实现运营卓越的路径是预防和学习的路径,融入到事件管理流程中,团队通过拥抱主动措施和事后审查,自信高效地运作,而不是陷入救火模式。

从反应式到主动式事件管理跨越运营鸿沟,对于降低运营成本和节省团队能力以加速创新至关重要——即使面对意外挑战,也能提供卓越的服务。

以下五个步骤可以帮助组织开始走向运营卓越的旅程。

1.扩展服务所有权以更高效地运营

手动事件管理流程的支离破碎性质是组织面临的主要挑战。分布式团队经常使用不同的工具和工作流程,这使得在关键事件期间的协调变得困难。平均而言,与自动化事件管理流程相比,手动解决事件的平均修复时间 (MTTR)要长1小时18分钟。

使用构建用于在整个组织中扩展全服务所有权模型的平台,可以利用各种运营模型(从集中式到分散式),并在整个事件生命周期中协调团队的响应。DevOps最佳实践的标准化推动了这种方法。它推动问责制和跨团队协作,同时通过自动化重复性任务和专注于创新来增强团队的能力,从而帮助减少重大事件和中断的影响。

2.使用 AI 和自动化来消除噪音

对组织基础设施和潜在故障点的了解有限,往往限制了团队采用反应式事件管理策略。例如,网络运营中心 (NOC) 传统上偏爱一种“眼睛盯着屏幕”的模型,这种模型过于依赖人工,并且容易出错,无法有效地分类当今涌入企业的庞大数据量。

事件驱动自动化使用 AI 和机器学习来仅显示需要人工关注和干预的关键工作。它可以抑制和分组警报,同时启动分类和自动修复以消除噪音。或者,它可以确定需要更多诊断信息,并通知团队进行调查。这使响应者能够自动修复低优先级问题,并专注于推动业务价值(创新、效率和卓越的客户体验)的高影响事件。 通过智能事件检测和主动问题解决,团队可以在问题升级之前预测和解决问题,从而显著减少响应时间并改进整体事件管理实践。此外,AI驱动的分析可以帮助发现可能无法通过人工分析发现的模式和趋势,从而确保更具弹性和效率的系统。

3.促进主动的跨职能协作

采用孤立的事件管理方法会减慢决策速度,并损害事件期间的跨团队沟通。相反,组织必须培养一种跨职能文化,让所有团队成员能够无缝协作。

跨职能协作确保事件响应计划全面,并考虑特定团队中包含的见解和专业知识。借助 AI 工具总结信息和起草消息,以及使用自动化共享定期更新,可以加快沟通速度。这会在利益相关者之间建立信任,并促进知识共享以加快解决速度。

4.将引导式修复带到响应者工作的地方

许多响应者与 ChatOps 工具协作以启动响应流程。事实上,有可能在不离开 Slack 或 Microsoft Teams 的情况下端到端地管理事件,从而最大限度地减少上下文切换以提高效率,降低协调成本并加快解决速度。 但是,除了创建专门的事故渠道并快速添加响应者和主题专家外,团队还可以从具有引导性补救功能的事故管理平台中受益。一个值得注意的例子是能够直接在聊天中分配角色和任务,以提高责任感并消除猜测,甚至确定事故类型,从而为特定场景制定量身定制的响应流程。

此外,生成式AI聊天机器人可以为响应者提供上下文支持和可操作的见解,使他们在快速解决问题时更加有效。此外,聊天记录可以自动摄取并在新创建的事故后审查中进行总结,从而促进将事故转化为学习机会并释放运营弹性的过程。

5.通过事故后审查改进弹性

制定主动事故管理策略的一个重要步骤是进行事故后审查。当事故得到解决时,团队往往非常忙碌,以至于他们不得不继续前进,而没有检查促成因素或确定哪些流程可以改进。

在重大事件(理想情况下是每个事件)之后进行无责备审查对于持续迭代地改进发生事件的系统至关重要。这应涵盖技术和人为方面。审查必须彻底,并发现流程缺陷、培训差距或系统漏洞,以改进事故管理。

有效地记录这些审查的结果——这一过程可以在AI工具的支持下加速——有助于组织提高弹性并减少未来事件的影响。持续学习的思维模式将每个事件都转化为推动改进事故管理成熟度的机会。

事故是不可避免的:灭火不是

事故将继续发生,因此组织需要关注如何更好地承受它们。通过跨越运营鸿沟——从传统的、被动的运作方式转变为主动的、自动化的事件管理——组织可以更快、更聪明地工作,以提高其服务的可用性和可靠性。最终,这种转变将改善客户体验,并为可持续的业务持续增长铺平道路。

责任编辑:武晓燕 来源: 云云众生s
相关推荐

2013-06-20 15:06:54

IT安全

2021-02-20 09:47:44

Covid-19工业智能

2020-03-25 14:00:00

​人工智能AI技术

2024-05-10 07:33:39

2012-05-10 09:34:27

TV

2016-09-28 21:58:10

网络信息化

2022-02-17 11:24:21

KubernetesCNCF云原生

2013-09-25 13:26:48

Microsoft账户Windows 8.1

2019-05-31 17:54:37

锐捷

2021-02-09 21:41:25

人工智能AI

2015-05-13 19:16:20

华为/敏捷网络

2017-04-25 09:04:16

2015-05-27 15:05:38

基础教育信息化华为

2013-09-11 16:20:25

苹果iPhone 5ciPhone 5s

2013-10-15 11:12:50

2010-05-17 22:37:05

2019-09-05 17:14:30

业务安全人工智能芯盾时代

2012-03-09 15:32:48

华为管理服务

2010-05-21 15:02:27

点赞
收藏

51CTO技术栈公众号