运维领域数据庞杂,如何开辟一条蹊径是很多运维人员在探索思考的事情。
随着AI技术在各个应用领域的落地及实践,IT运维也将迎来一个智能化运维的新时代。算法的效率提升了AIOps的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来。那么,基于算法的IT运维与自动化运维的区别是什么?在现阶段,运维中的哪些痛点适合引入人工智能技术?如何加速落地?
8月26日下午51CTO在北京举办了第十四期以“Tech Neo”为主题的技术沙龙活动,进一步拓宽运维/开发人员的运维思路、激发创新能力。51CTO在本次沙龙活动中邀请了来自清华计算机系副教授,智能运维算法专家裴丹老师、搜狗SRE负责人黄昕老师,以及京东金融资深架构师沈建林老师,通过基于算法的IT运维实践与探索,和运维/开发者一起探讨全新的AIOps实现方式,开启智能运维新时代。
从报警到预警——如何有效提升SLO
活动开始,***位分享的讲师是来自搜狗SRE负责人黄昕老师一开场就提出如何建立SLO,让运维的工作可评价?在整个分享过程中,黄昕老师把整个过程分为五个部分:***是要使得业务线的信任,第二,通过了解业务需求,明确稳定性需求,第三,避免不可抗力,第四,根据需求选择监控系统,第五,数据先行,不要在意一城一池的得失。
对于预警系统的实现,黄昕老师分享了以下5个方式:
- 信息的产生和收集
- 对数据的清洗和合并
- 规则库的管理
- 数据的实时处理
- 在故障前报警,对用户无感
预警系统框架
***,黄昕老师还与在场的运维开发人员交流了运维准入门槛,故障自动恢复,以及未来的展望。
智能运维如何落地
接下来,由清华计算机系副教授,智能运维算法专家裴丹教授为大家分享智能运维如何落地内容。在演讲开始,裴丹教授通过运维背景介绍,普世化智能运维关键技术,意在让所有公司都能用上***的智能运维技术。裴丹教授认为,解决智能运维普世化的问题在数据、算法、算力、人才方面上。
第二部分是分解定义智能运维中的关键技术,通过分解关键技术来定义科研问题。裴丹老师指出的科研问题要求分别为:
***:清晰输入,数据可获得;
第二:清晰输出,输出目标切实可行;
第三:有high-level的技术路线图;
第四:有参考文献;
第五:非智能运维领域的学术界能理解能解决。
***,裴丹教授还指出,Gartner报告中关于智能运维的问题描述太宽泛。
智能运维如何做好?裴丹教授认为,机器学习本身有很多成熟的算法和系统,及其大量的优秀的开源工具。 如果成功的将机器学习应用到运维之中,还需要三个方面的支持:数据, 标注的数据,应用。
数据:互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。
标注的数据:日常运维工作会产生标注的数据。 比如出了一次事件后,运维工程师会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。
应用:运维工程师师智能运维系统的用户。 用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。
***裴丹教授通过智能运维的三个案例,基于与百度运维、搜索部门的合作分享。***个案例是基于机器学习的KPI自动化异常检测。
上图表示运维人员判断kpi曲线的异常并标注出来, 系统对标注的特征数据进行学习 。(典型的监督式学习),这里需要高效的标注工具来节省运维人员的时间: 如可以拖拽,放大等方式。***,裴丹教授在通过构建KPI异常检测系统中分享了相关的实践与挑战等相关的解决方案。
人肉运维进阶
***一位来来自京东金融资深架构师 沈建林老师,分享人肉运维进阶内容。沈建林老师开场通过运维的理想与实现,谈谈自己对运维工作的一些看法,接着通过服务监控的使命切入本次分享的主题。在服务监控设计原则中,沈建林老师分为六大部分,分别为微内核、乐观策略、零侵入、约定大于配置、动态路由、集中管控等原则来设计。
在第三部分技术实现内容的分享中,沈建林老师通过日志采集方案对比、分布式服务跟踪的挑战、SGM整体技术架构、SGM Agent静态架构、SGM Agent动态架构、SGM Agent采集内容、SGM扩展方式等等技术手段,解决了从人肉运维到进阶的技术实现方式。
分享结束后,参会的运维/开发者与分享嘉宾就当前运维技术新概念、框架、思路,和目前工作中遇到的一些问题以及针对嘉宾分享的内容提出自己的疑惑和想法进行交流、学习,得到嘉宾的指导和建议。
51CTO Tech Neo技术沙龙是51CTO在2016年开始定期组织的IT技术人员线下交流活动,目前仅限北京地区,周期为每月1次,每期关注一个话题,范围涉及大数据、云计算、机器学习、物联网等多个技术领域。