2022年8月6日-7日,AISummit 全球人工智能技术大会如期举办。在7日下午举办的《AI赋能产业实践》分论坛上,带来了《从实验室到用户桌面,AI 落地实践之路》的主题分享。
近些年来,AI在各行各业得到广泛应用,推动了各行业的智能化,大幅提升了管理水平和决策能力,其中也包括IT行业。将AI应用于IT运维,也就是AIOps,就是AI在IT行业里面的应用热点。因此,如何高效运维也成为IT部门乃至CIO必须面对的问题。
在主题为《从实验室到用户桌面,AI 落地实践之路》分享中, 云智慧CTO张博指出,在指标、日志和调用链这些数据中加入Algorithm算法,就是AIOps的场景。在本次分享中,张博带来了AI 2B行业智能运维相关分享,将AI算法如何与行业进行适配并落地以及AI工程化如何进行行业适配与落地进行了讲解,同时分享了企业开发技术在行业的实践案例。
AI ToB是最好的时代也是最坏的时代
所谓AI ToB,就是面向企业服务的AI应用与服务。与AI ToC 三大件:搜索、广告和推荐的根本区别在于,AI ToB 是面向智慧医疗、智能城市、智能运维......往往没有well-defined问题,定义问题就是一大挑战。张博表示,AI投资已经进入去泡沫化的阶段,AI已经进入应用期。
Gartner报告指出,中国企业对 AI 具备强烈需求,并且热衷用 AI 来提高生产率、改善客户体验和促进业务增长。这一市场需求决定了中国具有产业 AI 的肥沃土壤。
张博认为,B端市场对AI的理解更加务实。以数据为基础、以场景为导向、以算法为支撑,切实落地智能运维,这就是云智慧的基本理念。
在智能运维领域,无论是ServiceNow、DataGog、Splunk,还是Dynatrace等等,在美国出现了千亿美金的公司、500亿美金的公司以及将近200亿美金的公司。因此,B端市场才是AI领域真正的星辰大海。
AI ToB 算法挑战
一个模型 y = f(x),在ToC场景下,尤其是近几年算法问题基本确定的情况下,大部分时间在讨论的是f(函数)如何优化,一部分时间是在收集x(数据);但y(目标)往往是明确的。在ToB场景下,x、f、y往往都是不确定的,仅仅一句“智能XX”作为输入。因此,定义问题是AI ToB的第一步,同时也是最具挑战的一步。
与人工智能、大数据、区块链等等技术体系不同,智能运维并不是一项“全新”的技术,而是一个以智能运维场景为基础的智能技术应用和融合,剥离开场景单谈“智能运维”不具有实际意义,智能运维的核心在于探索智能技术如何转化、服务、适配运维行业的发展、如何给运维行业带来解决问题的新思路。
在运维场景下,Peter Bourgon在2017 Distributed Tracing Summit对运维面对的Logging、Metrics、Tracing进行了系统性的阐述,根据其描述,我们将运维的场景分为“一元场景”、“二元场景”、“转化场景”三个大类。张博表示,运维的一元场景其实特别简单,就是指标、日志、告警和调用链的四大数据源。
一元场景包括指标、日志和追踪三个部分:指标是可聚合的逻辑计量单元,日志是对离散的不连续的事件的一种记录,追踪是单次请求范围内的所有信息,即调用链信息。
所谓二元场景,就是指标+调用链。当业务崩掉之后,一旦有了指标和调用关系,就能进行一些基于指标的根因分析等等。在上图中三个圆之间产生了两两之间的交集,我们把它称之为改革二元场景。
张博表示,在解决AI to B问题时,只要把场景理解好,就能够把要赋能的行业做到很好的理解。因此,智能运维就是围绕着指标/日志/追踪/告警四要素及其转化的AI使能。所以,运维场景+智能技术,称之为智能运维:AIOps。
在接下来的时间里,张博详细分享了GAIA-Dataset Tasks的相关技术内容,同时解读了AI ToB工程化挑战,感兴趣的可以观看视频回看,了解更加详细的技术分享内容。
行业实践与总结
在分享的最后环节,张博还结合云智慧研究院的工作,介绍了一些实践案例。
在智能运维算法平台助力某银行客户海量指标实时异常发现的案例中,利用云智慧的智能运维,实现了变更自学习、趋势自适应、趋势+变更自学习、跑批自适应、周期自学习、周期+趋势自适应、忙闲时自学习、扩展至物理世界指标等能力,很好的帮助客户实时发现海量的指标异常数据,简化了客户的运维难度。
除此之外,张博还详细介绍了智能运维算法平台助力某运营商日志异常发现和智能运维算法平台助力某银行客户交易业务根因分析两大案例。
张博表示,AI to B是一个既要Algorithm能力,又要落地,又以效果看成败的特别有趣的行业,拥有整个Algorithm、整个算法的星辰大海,需要大家一起去挖掘深度学习、机器学习等等一些技术,真正赋能产业变革。