企业的数字化转型始终在不断推进,伴随而来的是IT系统的复杂性呈指数级增长。服务器、微服务、容器、数据平台等多层技术堆栈交织在一起,遗留系统与云原生架构相互耦合,快速迭代的业务需求与全球化部署的弹性要求,使得传统IT运营模式逐渐力不从心。
面对海量指标和告警、突发的故障、不断更新的运营知识以及持续的系统迭代需求,运维团队往往陷入“救火式响应”的恶性循环。然而,人工智能(AI)的引入为这一困局提供了突破之道——AI不仅解锁了问题处理的效率边界,更通过持续学习推动IT运营从“被动修补”走向“主动进化”。
一、IT运维的恶性循环与破局点
传统IT运营遵循“发现-诊断-排查-解决-学习”的线性逻辑,但其核心矛盾在于:问题发现的滞后性与解决成本的指数级增长。
当系统出现异常时,运维团队需要从成千上万的日志、指标和告警中定位根源。这一过程往往依赖支持工程师的经验与人工排查,耗时且容易误判。在我们为客户提供运维服务之前,企业平均需要数小时定位复杂系统的故障根因,而在此期间,业务损失可能已经产生。
更严峻的是,高昂的解决成本会倒逼团队选择“短视方案”——例如直接重启服务、打补丁、甚至屏蔽告警。这些临时措施虽能快速恢复业务,却为系统埋下更多隐患:无论是从可观测性还是系统代码质量来看,临时措施都会导致未来故障的连锁反应与更高的修复成本,从而使运营团队陷入『负循环』。最终的结果是更高的运维成本、逐步降低的可观测性、甚至渐渐腐化的系统。
AIOps(智能运维)的核心价值,正是通过AI在问题萌芽阶段介入,打破这一恶性循环。它从海量数据中提取模式,在故障影响扩散前预警、分析并推荐解决方案、根据问题的种类和优先级提供自动化解决方案并执行,同时将处理经验沉淀为可复用的知识,最终实现“越早处理,成本越低”的良性闭环。
二、AIOps的三大核心场景落地
场景一:指标与告警管理——从“告警疲劳”到“精准洞察”
传统监控工具常陷入“告警疲劳(Alert Fatigue)”:单一服务器CPU使用率飙升可能触发数十条关联告警,而其中仅1条指向真实故障。在客户与Thoughtworks合作中,我们构建了一整套端到端的可观测性解决方案,包括指标收集、告警梳理、异常处理、根因分析、协作软件集成、直到运营报告的生成,在这个过程中,我们的解决方案设计整合了多个平台、大语言模型、以及开源技术,最终,我们能够在工单生成前,从指标数据中精准识别问题并提前处理,以下是这个解决方案的若干构件:
这个实施方案里:我们通过Chronosphere与Odigos进行多个信息源的可观测性指标的收集、筛选、合并最终生成优先处理的告警;告警通过Rootly告警管理平台进行管理,结合Slack平台与运营人员进行即时互动;同时利用Google Vertex AI提供的大语言模型进行AI辅助——例如事故总结、根因分析、基础知识辅助等;相关运营知识采用Glean的AI知识搜索功能进行抽取和总结;最终,在Slack上的处理结果将按类型分流:可以执行的自动化任务(由GitHub Actions完成)、更新的知识(自动生成Conflunce页面)、或自动生成的工单(通过Jira或Zendesk)。
通过这个解决方案的实施,我们预计AI可以通过自动化的方式处理超过20%系统告警、超过60%的告警可以得到在工单生成之前得到有效处理、最终降低整体的工单量。
场景二:工单自动化与响应——从“人力密集型”到“智能流水线”
工单处理涉及大量重复性工作:用户提交故障描述、运维人员检索知识库、分派任务并手动验证结果。AI在此环节实现三重突破:
- 自然语言处理(NLP)自动解析工单:将用户描述的系统问题自动关联至性能指标、近期变更记录等上下文,生成结构化工单。
- 知识图谱驱动的自动化响应:例如,当识别到『登录失败』工单时,AI自动检查身份验证服务状态、防火墙规则及最近代码发布记录,并执行预置的检查脚本,60%的简单问题可自动解决。
- 智能分派与协同:根据故障类型、工程师专长和当前负载,动态分配任务,并推送关联案例和修复方案,减少跨团队沟通成本。
在与东南亚某国政府的合作中,我们利用该方案实现了工单预处理团队(Pre-L1)的全面自动化,成功替代8人的人工操作,每年为客户节省近百万美元的人工运营成本。
场景三:系统演进辅助——从“推倒重建”到“慢演进”
在与客户的合作我们越来越发现,一个健康、且持续健康的系统对于运营团队至关重要,优秀的系统架构、自动化程度、可观测性等等都可以大幅降低运营团队的成本、提升运营效率。所以Thoughtworks DAMO提出了『慢演进』的概念——相比高风险的“推倒重建”,更倾向于通过迭代优化,逐步提升系统健康指标。通过AIOps的实施,我们帮助客户节省了大量运营成本、同时我们将这些被节省的成本重新投入到系统的『慢演进』中去,这里我们同样使用AI进行系统演进。
例如以下这个例子:
为了使得每次提交的代码,不引入架构问题、安全风险、或代码质量问题,我们采用AI和人协同进行代码审查的方式,秉承“持续改进”的敏捷思想,保证在每一次代码提交时不破坏系统健康。
在另一个案例中,我们结合大语言模型与知识图谱,从遗留代码中提取业务和系统知识,并将其转化为可复用的领域知识,助力研发、架构演进、及运维管理:
三、AI驱动的IT运营新范式
AIOps不仅仅是将算法嵌入既有流程,而是推动IT运营向三个维度演进:
- 从被动响应到主动预防:通过早期预警和根因分析,AIOps能够在问题影响业务之前就将其拦截,从而实现主动防控。
- 从人工决策到人机协同:AI负责处理规则明确且高并发的简单任务,而人类专注于复杂决策和创新,通过这种方式,整理工单量得以减少,用户问题的响应能力也得到提升。
- 与架构团队共同负责长期的系统演进:借助AI的力量,能够有效保护代码健康,并为系统架构的持续演进引驾护航。大语言模型的推理能力还能够用于领域知识的抽取与转化。
这种范式迁移的长期价值在于,随着AI技术的应用,企业IT系统将变得越来越智能,系统的迭代将越来越稳定,从而支撑业务的数字化创新,同时降低长期维护成本。
四、结语
AI正在重新定义IT运营的“效率”与“价值”。它不仅是工具的升级,更是对角色定位的重新演绎:运维团队的角色从“系统修理工”转向“架构保护者”、甚至“业务护航者”,而IT系统本身也从“成本中心”演变为“创新引擎”。展望未来,随着大模型与AI技术的进一步成熟,AIOps或将实现“自治运维”。然而,这并不意味着取代人类,而是通过人机协作的智慧,成为企业数字韧性的真正基石。