【51CTO.com原创稿件】2020年9月25日,第五届华为全联接2020大会顺利进入第3天议程。在媒体圆桌现场,华为隆重推出AIOps系列云服务,聚焦提升电信运营商和企业专网的智能化运维能力,引发业界极大关注。
媒体圆桌发布会现场
华为网络人工智能产品部CTO程磊现场发布AIOps系列云服务
2020年,随着5G商用与“新基建”的加速实施,联接、云、AI、计算和行业应用史无前例地汇聚到一起,为数字经济发展注入了新动能。但在千行百业不断对数字化转型按下“加速键”的同时,华为强调“欲善新基建,必先利运维”。尤其在电信行业,华为认为运维能力的演进成为电信网络能否持续发挥效能的关键因素。
电信网络运维难度指数级增长,AIOps被给予厚望
华为这番观点深得电信运营商的认同。事实上,在运维支撑系统的演进方向上,“构建 AIOps 平台能力,运用AI技术支撑不同运维场景应用”也已经成为电信行业运维智能化转型的趋势和共识。
之所以电信行业如此积极拥抱AIOps,最关键的原因就在于现有的运维瓶颈已经不是简单增加人力,培养运维专家就能化解的。更何况运维效率低下带来成本激增,也极大地拖慢了运营商转型的步伐。以新应用上线为例,在当今竞争激烈的市场大环境下,新的功能应用必须以“快”为先,但是不少电信行业的OSS系统独立,新应用上线周期长达数周甚至数月,这显然不能满足市场用户的需求。再看看运维工作里最常见的故障定位与恢复:过去故障诊断往往依赖个人经验,准确率低,并且往往是用户投诉了才知道出现了故障。这在5G新基建时代显然行不通了,因为网络更加复杂,牵一发动全身,仅仅凭借个人经验根本不足以应付如此复杂的网络状况,故障处理时间长效率低,纯人工运维模式+个人经验主义委实难以为继。
在这样的形势下,AIOps被看做是化解网络运维复杂度,提升业务质量和用户体验的一道“良方”。而华为本次推出的AIOps系列云服务,不仅包括了括故障识别根因定位服务、日志异常检测服务,还提供KPI异常检测服务,硬盘异常检测服务,可以说是为电信行业和企业专网用户量身订制,让运维实力再上新台阶。
华为分享AIOps成功落地两大关键点
事实上AIOps并不是一项新技术,早在2016年,Gartner就已正式将AIOps定义为新的运维类别。当时业界普遍认为运维与AI有天然的结合优势,既不需要数字化转换,也对数字采样没有太高要求,最关键的是运维领域的日志、配置、操作、脚本、程序等都是计算机自动生成的,这恰恰是AI处理的强项。但这几年过去了,AIOps却并没有预想中那样“混得风生水起”,这究竟是什么缘故?
华为指出,电信领域的AIOps落地的关键有两点:第一点是需要将行业知识与AI技术融合,只有当AI算法与电信领域行业知识真正融合后,才能拥有更优质的电信领域模型参数,彻底解决此前通用算法模型在电信行业落地效果差的难题。第二点,网络运维系统的AIOps能力构建的趋势是业务与能力解耦,要做到AIOps能力的复用、拉通,支持,才能适配运维场景应用百花齐放和快速上线迭代的需求。
四大核心功能令华为AIOps“技高一筹”
那么,秉持着华为对电信领域智能化运维思考,华为AIOps云服务究竟有何不同呢?这就不得不提华为AIOps的四大核心能力:
核心能力一:提供丰富的AIOps原子能力。NAIE AIOps的原子能力覆盖运维全流程,包括预测、检测,定位、执行,目前提供20多种原子能力,支持流量预测、KPI异常检测、日志异常检测、CHR异常检测、异常关联分析等服务。
核心能力二:组合编排与DevOps能力。华为可以帮助电信行业零编码定制场景组合应用,例如KPI异常检测服务、故障识别与根因定位服务、日志异常检测服务、硬盘异常预测,都已经成为华为AIOps预组合编排好的服务,支持运维人员“开箱即用”。
核心能力三:支持电信领域数据对接。华为AIOps 使能服务提供通用的数据源对接和标准化数据治理组件,支持 KPI 、告警、日志、xDR 等电信领域主流运维数据,还支持 Kafka、数据库、文件系统、Restful 等电信运维系统的主流数据对接方式。
核心能力四:提供场景组合服务。围绕运维全流程(发现、分析、处理)提供预制典型场景组合应用,快速接入运维流程。
华为AIOps赋能运维智能化未来
如今,作为自动驾驶网络AI引擎iMaster NAIE的核心能力,华为AIOps使能服务已经在电信行业的无线、核心网、数通等网络域得到了广泛应用与规模验证。在实践中,华为AIOps帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI能力解耦,通过AIOps能力来适配运维场景应用百花齐放的需求。
在电信网络中,通过KPI来预测和检测网络问题是最普遍的场景。华为AIOps能够通过AI算法基于历史数据自动生成每个KPI 的动态门限,并且提供异常原因的关联分析。如此一来,一旦发生KPI故障,华为AIOps就能帮助运维人员快递锁定故障点,并且模型还可以进行自学习调优,不断演进优化。国内某运营商采用了核心网 KPI 异常检测服务以后,实现提前 5 小时识别异常并主动预警,降低了业务损失。
不仅如此,发现异常或者故障之后的定位是运维流程中的难点,如何准确的将多维度的异常、告警等事件进行汇聚,减少故障噪声,准确定位到具体原因?传统运维中,这些工作主要依赖于专家经验或者手工分析,而且受限于分析算力和知识信息,效果并不理想。华为 AIOps 通过 AI 算法与业务的融合,支持多类异常/告警等事件的智能故障定位,能够为运维团队提供多维度的事件汇聚和根因定位。经过实际验证,无效上站减少 60%,根因识别准确率 85%+,运维效率整体提升 15%,令运营商非常满意。
Tractica/Ovum 预测,到 2025 年,全球电信业对人工智能软件、硬件和服务的投资将达 380 亿美元 , 成为最大的 AI 应用市场。在中国,三大运营商也早已在人工智能领域布局,相信随着新基建的深入,电信行业有望再次腾飞。有理由相信,华为AIOps系列云服务将为电信行业注入更高效的运维支撑能力,加速电信行业变革。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】