中国信通院稳定性保障实验室 “智能观测进化论”第二期沙龙精彩回顾-51CTO.COM

2025年3月7日，由中国信通院稳定性保障实验室主办的“智能观测进化论”系列沙龙第二期圆满召开。本期沙龙邀请了众多业界大咖齐聚一堂，就AI Agent和大模型在可观测领域的应用潜力与实践路径展开深入探讨，分享了前沿学术研究进展和最佳实践经验，吸引了上千名业内人士的热情参与。下面，就让我们一起来回顾会议精彩内容！

一、智观全局，智能体技术在运维和可观测领域的实践探讨

中国信通院云大所云计算部工程师刘坤担任沙龙主持人，他首先介绍了系列沙龙的召开背景，大模型、智能体等技术在加速可观测性技术向更加智能的形态演进，然后分享了QwQ-32B模型和现象级产品Manus的发布，引出了本场沙龙的圆桌讨论话题，激发了与会者对于沙龙内容的期待与思考。

乘云数字产品技术专家赵铄乂发表了《基于因果AI和DeepSeek,如何落地实践故障定位》主题演讲。他首先介绍了当前可观测行业中存在的故障定位效果难以量化的问题，分享了新研发的故障定位沙盒工具RootTalk Sandbox，接下来针对使用传统AIOps方法做故障定位难度大的问题，分享了基于因果AI实现快速准确故障定位的方案，展示了一个实际的故障演练实战效果，最后介绍了DeepSeek在故障定位过程中的价值，讨论了怎样结合因果AI和DeepSeek来实现一个更加良好内容体验感的故障定位方案，并展现了一个真实的案例效果。

字节跳动服务端可观测平台算法负责人董善东发表了《Agentic AI 在可观测领域的应用潜力与实践路径探讨》主题演讲。他首先分享了Agentic AI对于可观测、SRE带来的潜力思考，构建SRE Agent数字分身，实现对多个场景的串联、协作，助力SRE解决“日常琐事”，然后介绍了Agentic AI的概念、特点和MCP通信协议，分析了业界使用Agents在可观测和SRE方向的应用，提出了multi-agents到Agentic AI的关键点是反思和学习，描绘了SRE场景下的 Agentic AI 大图，最后进行总结展望。

咪咕视讯科技有限公司技术总监朱孙伟发表了《智能体技术赋能可观测平台场景分析》主题演讲。他首先分享了结合RAG+大语言模型快速构建专业运维辅助决策体系，并结合历史数据实现专业问题解答和决策辅助的应用路线，然后介绍了基于自然语义理解，大模型辅助实现异常数据的智能化清洗、分析、提取训练数据集和测试数据集的实践经验，以及通过图像识别、自然语义理解等技术构建新一代交互方式，最后展望了AGI模式下“数据感知-智能决策-行动执行”的智能体完整能力。

移动云运维架构师李蔚发表了《基于大模型AI技术的高阶智能运维发展与规划》主题演讲。他首先介绍了DS等模型运维应用与边界，对DeepSeek等大模型在运维领域的应用案例进行分析，盘点出当前大模型技术的能力边界，然后分享了基于大模型的智能运维影响因素，最后介绍了移动云在智能运维领域的发展与规划，包括运维业务架构、智能运维研发协作和大模型技术加持下的故障自动驾驶设计。

二、圆桌对话，面向实践痛点碰撞观点

在圆桌环节，所有与会嘉宾现场一起连线对话，同频探讨 AI 大模型和可观测性技术的发展脉络与趋势，嘉宾们针对大模型对于运维的将本增效、人类专家与AI系统的有效协作、AI Agent决策的可解释性、通用Agent对于领域Agent的影响等议题，进行了热烈的探讨与交流。

【观点总结】

1）运维大模型的基建不像原来基于规则和数据的基建那么完善，在做基建的过程中，本身就要耗这种大量的成本。

2）大模型在运维领域有其适合发挥能力的优势项目，也有超过其能力边界的一些劣势项目，现阶段多在优势项目去发力，才能提高效率。

3）大模型在运维领域的落地效果与模型本身的准确率息息相关，如果模型准确率没有突破，在实践过程中会产生很多新问题。

4）随着技术的发展进步，大模型的能力会越来越强，企业会逐渐完善内部基建，智能化一定是未来的趋势，因此需要从现在开始就进行实践探索。

【观点总结】

1）控制AI的随机性，如使用知识库、模型微调等方法。

2）对关键运维操作分级分类，涉及高风险和影响面大的关键动作节点，人类要介入审核。

3）三是进行多轮校验，对于模型生成的决策要设置多轮审核机制。

4）目前的人机协同范式，还应遵循模型做生成工作，人类完成审核工作。

5）要增加模型的可解释性，让人更能够理解他是怎么样决策的。

6）加强模型反思，通过反思让模型对自己的输出结果进行评估和改进。

【观点总结】

1、将CoT输出，显示大模型的推理步骤。

2、对大模型决策路径的关键环节做结构化处理。

3、使用可观测性技术对大模型和Agent进行观测，特别是包含大模型的完整调用链路。

4、使用流程编排对大模型的思维链做限制，以人脑的思维链辅助大模型的自主决策过程。

5、使用RPA机制和小模型辅助大模型得出相应结论。

【观点总结】

1、垂直领域的数据是私有的，这是通用Agent所不具备的，领域Agent对特定领域的问题的效果优于通用Agent。

2、从专业性的深度、合规和安全方面考虑，Agent要嵌入公司内部的专业工作流，领域Agent更具备优势。

3、通用Agent对于算力的消耗大于领域Agent，考虑成本和效率，现阶段企业仍然会选择领域Agent。

三、中国信通院智能可观测性能力评估介绍

中国信通院联合国内头部云厂商、观测厂商及各行业建设方，历时近5个月，共同编制了《云计算智能化可观测性能力成熟度模型》，以规范和指导云计算环境下的智能可观测性建设实践，为企业实施云环境下的智能化可观测能力建设提供指导。目前，首批评估工作火热进行中，结果将于2025年可信云大会重磅公布，欢迎咨询！

标准概况

面向对象：适用于可观测大模型、云厂商可观测性平台、可观测独立厂商的各类产品、可观测建设方案等。

编制情况：2021年，中国信通院联合行业头部企业编制行业标准《可观测性平台技术要求》，在大模型赋能千行百业的今天，中国信通院再次联合来自云计算、可观测、通信、互联网等行业的企业，历时5个月编制《云计算智能化可观测性能力成熟度模型》，并于2024年9月再次成功立项行业标准，于2024年12月正式发布！

内容简介：标准规定了智能化可观测技术底座能力，确定了8项主流的智能化场景应用能力，包括智能数据分析、智能告警基线、异常检测、趋势预测、智能告警收敛、智能日志分析、智能根因分析、智能优化建议，并前瞻性的提出可观测智能体的相关能力要求，凝聚行业共识，为可观测性技术的演进路径提供了参考。

部分参编单位

● 中国信息通信研究院

● 中移（苏州）软件技术有限公司

● 阿里云计算有限公司

● 华为云计算技术有限公司

● 腾讯云计算（北京）有限责任公司

● 北京字节跳动科技有限公司

● 咪咕视讯科技有限公司

● 中兴通讯股份有限公司

● 腾讯科技(深圳)有限公司

● 宁波广播电视集团

● 杭州乘云数字技术有限公司

● 上饶师范学院

● 科来网络技术股份有限公司

● 恒为科技（上海）股份有限公司

● 中移互联网有限公司

● 飞思达技术（北京）有限公司