中国移动设计院：基于大数据的人工智能运维服务支撑方案-中国移动设计院

01、概述

在运营商传统网络运维中，巡检、告警分析、故障处理等工作长期积累了丰富的经验，其价值并未被充分挖掘。同时，目前的人工运维存在系统复杂耦合度高、数据来源多种多样、人工维护风险度高，修复间隔时间过长、人员培养难度大等现状，导致了性能相关告警不明确、无效告警筛查规则缺失、故障维护只能被动解决，优化/维护工单重复派发等问题，影响网络运维的效率和成本。为了优化网络运维的工作模式，提升网络运维准确性及效率性，提出集中维护支撑服务项目，基于人工智能(Artificial Intelligence)的运维解决方案旨在强调实现以维护为中心，依托大数据挖掘技术与深度学习算法，实现问题早发现，由被动处理问题改为积极预防问题，从而提高整体资源的利用率和维护效率。

02 、基于人工智能(AI)核心算法

2.1 聚类算法(KMeans)

通过对多维度求欧拉距离(或余弦距离)，不断的迭代对隐患进行聚类，找到关键核心点的特性进行隐患挖掘。K-Means算法是基于多维度距离的聚类算法，通过设置参数K，将样本点分为K个紧凑且独立的簇，每个簇由与簇的质心欧拉距离靠近的样本点组成。

计算步骤：

随机选取K个中心点遍历所有数据，将每个数据划分到最近的中心点中
计算每个聚类的平均值，并作为新的中心点
重复2-3，直到这k个中线点不再变化(收敛了)，或执行了足够多的迭代

以每个基站作为样本点，以其性能指标参数及历史告警类别和频次作为特征，对所有有告警基站进行K-Means聚类，通过不断迭代将将告警类型依据相似性能指标进行聚类，深入挖掘各类告警的关键核心特征，作为基站画像、隐患挖掘与管理的基础。

2.2 常规分类算法(逻辑回归，KNN，决策树，随机森林)

通过把相似隐患进行归并，可以对隐患进行分级，从而方便查找隐患的级别。常规分类算法是有监督的机器学习算法，对于给定的目标类别，将样本进行分类。

逻辑回归：基于Sigmoid函数的多特征的二分类/多分类广义线性回归。通过建立代价函数并利用梯度下降优化的方法，实现多样本的分类。
KNN：K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是将每个样本分类为它最接近的k个样本的类别均值。
决策树：决策树又称为判定树，是运用于分类的一种树结构，其中的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果。
随机森林：从样本集中选取n个样本，构建决策树，并重复这一步骤m次形成m个决策树，通过投票表决决定样本类别。

以基站作为样本点，通过分类方法可以将基站分为隐患基站和非隐患基站。通过对隐患基站性能指标参数、资产信息、地理信息及告警类型级别作为特征，对基站告警隐患进行分级，确定基站隐患级别，实现对基站健康度打分。并可根据已训练好的机器学习模型对新样本进行健康度评估。实现设备状态预判。对于隐患级别高的基站进行重点关注，并将其对应的性能参数指标作为隐患基因统计进入隐患管理库。

2.3 异常检测算法

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。所谓核密度估计，就是采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。

核密度估计可用于进行异常检测，计算正常样本之外的异常分布可能性，用于异常数据分析、特殊场景分析。对于完成画像的基站样本点，对于未发生告警的基站进行异常检测，可以发现性能指标相对于正常值(不会触发告警的性能值)发生偏离的样本点，动态自适应设定告警阀值，触发维护工单。有效预警，降低站点告警故障。

2.4 深度置信网络(DBN)

深度置信网络是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(观测值|标签)和 P(标签|观测值)都做了评估。

DBNs由多个受限玻尔兹曼机(Restricted Boltzmann Machines)层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。深度置信网络可以用于样本目标的数值预测以及样本类别的分类。

对于样本类别的分类，与常规分类算法应用相似。实现基站告警隐患分级，康度打分。并可根据已训练好的机器学习模型对新样本进行健康度评估。实现设备状态预判。

对于样本目标的预测值，通过深度置信网络实现基站特征异常概率分析等功能。针对网络性能指标特征的异常情况，进行概率预判，即尝试对“亚健康”网络进行预判。预先判断网络问题，减少投诉和性能告警、设备故障实际发生的概率。

2.5 堆叠自动编码器(SAE)

自编码器(AutoEncoder)是一种无监督的学习算法，主要用于数据的降维或者特征的抽取。autoencoder通过深度置信网络进行预训练，从而确定网络权值的初始值。其目标是让输入值等于输出值。首先用网络权值矩阵对输入进行编码，经过激活函数后，再用矩阵转置进行解码，从而使得输出数据等于输入。该过程可以看作是对输入数据的压缩编码，将高维的原始数据用低维的向量表示，使压缩后的低维向量能保留输入数据的典型特征。

为实现智能站点画像，需要对站点的性能指标，资产信息，地理信息，历史告警信息等多维特征进行梳理。通过自编码器可以对大量特征进行梳理并降维，最终形成构成基站健康度指标的多维特征，可对后期的异常检测，告警预测，隐患管理降低输入数据维度，降低计算成本。

2.6 循环神经网络(RNN)

循环神经网络可用于时间序列相关的样本取值预测。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。

03 、端到端运维功能架构

3.1 网络运营中心NOC

端到端的运维架构主要由两大部分组成：网络运营中心NOC(Network Operation Center)和现场外线。

Figure 1. end to end operational architecture
图1.端到端运维功能架构

NOC(网络运营中心)是实现远程实时监控服务运营和检测设备状况的网络化中心，主要涉及运维设计、运维监控、故障分析、诊断测试等几大功能模块，可结合运营商EOMS(Electric Operation Maintenance System)电子运维系统进行任务工单派发，将NOC嵌入现有运维流程可提高相关技术、流程、组织及管理效率，进而提升网络与服务的稳定性与可预见性。

现场外线主要是承载、处理、闭环EMOS电子运维系统所派发任务工单，包括现场维护人员的任务调度、资源调度及最终的排障巡检。

3.1.1 运维设计功能

运维设计功能主要包括两部分功能设计：运维规则设计与AI辅助规则设计。

Figure 2. design function of operation and maintenance
图2.运维设计功能

其中运维规则设计主要来源于运营商长期积累的相关运维经验，制定分析规则、诊断规则、派发规则、调度规则、激活规则等，将上述规则应用于可视化设计分析中，为自动化运维提供快速设计能力。

AI辅助规则设计则是由传统技术专家进行专业设计转变为通过AI技术辅助进行根因规则设计。将相关网元类型、告警类型、告警信息、告警码、位置信息等作为输入项，通过神经网络相关算法最终输出AI辅助规则。

3.1.2 运维监控功能

通过对数据源、数据表等分析进行场景监控设计，可视化呈现多系统、多界面的监控。

Figure 3. operation and maintenance monitoring function
图3.运维监控功能

场景运维监控可对网络全景监控，也可选择性针对主题监控，定制适合实际需求的个性化监控功能。将之前被动运维、基本无故障预测转变为隐患故障可预测及规避。

3.1.3 故障分析功能

通过部署RCA(RootCauseAnalysis)根本原因分析规则挖掘工具，根据算法学习出固有规律，形成规则放入RCA中进行告警根因查看和告警抑制压减。

Figure 4. fault analysis function
图4.故障分析功能

再结合性能指标、参数配置、相关变更情况、问题日志等进行多源关联分析，从而对故障进一步确认，提高故障分析的准确性及效率性。

3.1.4诊断测试功能

诊断测试功能主要包含人工诊断指令及自动诊断脚本两部分。

Figure 5. diagnostic test function
图5.诊断测试功能

首先通过人工诊断指令下发至EMS，再由EMS反馈诊断结果至人工诊断指令部分;自动诊断脚本可批量生成指令，再由EMS反馈上报相关诊断报告，将诊断结果或诊断报告中异常问题自动创建维护工单并指派现场处理，交由现场工单管理，进行后续流程处理。

3.1.5工单派发功能

工单关联RCA的关联规则，进行根故障派单，子故障合并派单，综合考虑网络拓扑、运维经验等信息，例如同一基站下所有小区退服，则合并为一个业务工单，从源头减少派单量，提高故障解决效率。

Figure 6. distribution function of work lists
图6.工单派发功能

T1告警消除最大量时间点，T2为关联指派时间点，T3为告警派发最长时限，通过分析历史告警，给出最佳关联时间点阈值，减少消除告警的无效派单量，通过关联减少派单总量，提升运维效率，通过动态设置派单时间阈值，追加合并派单，减少无效派单、重复派单。

3.2 现场外线配合

3.2.1 故障单处理

集中故障告警平台针对告警监控进行结果输出，在创建TT(Trouble Ticket)工单之前，需要等待一定告警清除时间，避免相关工单追回。当系统收到TT的告警清楚消息后，可以自动关闭TT单和相对应的WO(Work Order)单。

Figure 7. fault single processing
图7.故障单处理

通过运维经验和对历史工单进行机器学习、挖掘工单相关性规则，启动策略归并重复工单，去除无效工单。

3.2.2 任务及资源调度

对于外部系统派发的TT单，在某些应用场景下，不需要相关分析处理，可以直接派发至外场工程师处进行解决。对于这种应用场景，系统提供TT单自动受理并派发子单的功能。当系统接收到TT单时，自动以系统超级用户来受理TT单，然后进行处理，在处理该步骤时可自动选择生成WO单，并生成子单。智能调度主要是将任务通过AI调度引擎进行工单计划制订、位置及路线规划、员工能力及工具需求分析，把任务与资源相结合达到最佳匹配效果。通过人员调度、资源调度、路径规划等可实现工单“零”时间指派、合理安排人员工作任务量，提升派单准确率、提升平均工单响应时长及资源使用效率。

3.2.3 自动巡检管理

自动巡检管理主要涉及巡检配置管理、巡检规则管理、巡检任务列表、指令适配/执行及自动输出巡检报告功能。

Figure 8. automatic inspection management
图8.自动巡检管理

巡检配置管理包括基础数据配置管理、设备网元配置管理、任务/方案管理及门限管理/通知管理。
巡检规则管理是为制定相关巡检规则(专业网信息、作业计划)等以及配置解析规则。
巡检任务列表可对巡检计划接口定义、巡检定时任务、巡检任务列表查看。

指令适配及执行由自动巡检功能发现维护类问题，通过模板初始化规则及指令创建规则生成巡检测试工单，再与指令模板进行匹配映射创建巡检任务，指令执行后将指令结果反馈闭环输出巡检报告。

Figure 9. automatic inspection process
图9.自动巡检流程

将相关维护要求结合站点资产信息;历史数据包含告警次数、故障处理次数、站点话务量、数据量等信息;地理位置、区域、地形特征(高山、平原、河岸、洼地等)、耐候性;气象机构输出的相关天气数据，共同制定动态巡检计划，聚焦故障高发站点，主动预防历史故障重发，减少维护资源的浪费。

3.2.4 隐患管理

隐患管理主要针对异常项目生成智能巡检告警，自动完成对告警信息的分析，自动生成维护作业计划告警工单，维护人员根据隐患工单来处理隐患问题。

Figure 10. intelligent inspection
图10.智能巡检

在巡检设备上(铁塔、基站等)，放置NFC(Near Field Communication)标签，通过近距离无线通讯技术，巡检人员按照路线的设置，依次到每个地点进行巡检，自动显示巡检内容并根据需求填写巡检的内容。

04 、端到端运维软件架构

Figure 11. end to end operation software architecture
图11.端到端运维软件架构

端到端运维系统软件架构主要包括5个部分，原始数据、数据ETL(Extract-Transform-Load)、数据存储和后台业务处理、业务处理控制、业务展现层。

其中原始数据可通过北向平台、EOMS工单系统、代维资产管理系统、动环检测系统及外部相关API接口数据(地理天气数据信息)。通过数据ETL处理用来将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端，从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。将相关数据存储至Hadoop集群中，通过AI平台算法及功能(聚类算法、常规分类算法、异常检测算法、深度置信网络、堆叠自动编码器、循环神经网络等)结合专家知识库进行智能任务调度及后台业务处理。业务处理控制主要细化各模块功能，通过相关业务逻辑中间件实现模块功能。业务展现层，基于前端公共模块相关技术对站点画像、区域画像、隐患管理、地理化分析等界面化呈现。

05 、基于AI的运维实施应用

5.1 站点画像

通过学习借鉴互联网用户画像技术，基于多维网络运维数据，引入AI特征画像和异常检测算法、输出网络特征的站点画像，为智能运维各模块提供全景式特征画像和数据支撑,实现隐患站点分级标签化。整合系统自身大量的多渠道、多维度的基础数据作为输入，通过无监督学习算法进行聚类及异常检测，输出具有网络特征的站点画像标签及指标异常站点列表。

(1)站点健康度评估

基于站点设备种类、性能情况结合站点环境、停电情况、备电时长、站点历史故障等信息建立站点健康度评估指标体系，并设定告警阈值自动触发维护工单，并有效预警，降低站点告警故障。

Figure 12. site health assessment
图12.站点健康度评估

(2)区域可视化

采用多种代维指标和站点客观运行指标，可以实现区域综合可视化，以区域为对象，提供整体指标统计分析，用于运维提升支撑。

Figure 13. Table evaluation of regional indicators
图13. 区域指标评估评估

(3)站点维护成本分析

通过对历史故障维护数据包括维护人员、车辆、油机、故障发生频率等信息提供站点维护成本数据;为过程成本量化、站点维护预算及后续投标成本核算提供数据支撑。

利用AI算法实现告警智能分类，针对具体故障提供智能决策，指导运维人员故障处理，建立员工与工单之间的映射，实现工单精准指派，减少工单派发数量，提升工单派发质量，同时关联APP，缩短故障恢复时长。达到“降本增效”的目的。

Figure 14. Maintenance process management
图14 .维护过程管理

(4)制定站点维护计划

基于站点重要级别、历史故障信息、天气状况等制定维护计划;对维护备件提供预测管理并减少站点故障率，降低单站维护成本。

Figure 15. Site maintenance plan management
图15 .站点维护计划管理

5.2运维效率分析

(1)GIS资产全景图

对资源信息(人员、车辆、站点、油机)进行实时位置展示，工单关联、轨迹回放;实时了解资源状况，方便调度管理。

Figure 16.GIS asset panorama
图16.GIS资产全景图

(2)“赛马”Dashboard

通过现场大屏监控对项目基础维护信息、人员效率指标、车辆效率指标、油机效率指标进行实时和趋势分析呈现，监控中心随时了解项目整体效率情况及区域赛马情况。

Figure 17. monitoring information on large screen
图17.现场大屏监控信息

(3)人员效率指标分析

对人员工单效率指标进行统计分析，包括上站任务详细信息及工作时长信息;对车辆效率指标分析，包括上站里程、规划里程分析;发现人员运维效率短板进行改进，提升效率。

Table 1. overall statistical data for efficiency indicators
表1. 效率指标总体统计数据

(4)APP掌上运维

管理人员可通过移动APP应用实时掌握了解项目运维情况及人员效率情况，并为管理人员提供实时运维决策效率数据支撑。

Figure 18.APP management cockpit
图18.APP掌上运维

(5)故障预测

过去运维工作都是在进行大量的事后处理工作，现在，通过运维专家梳理，选取动力环境、历史工单、网络性能、天气停电、故常告警、综合资管等多个维度特征，构建训练数据集。同时，我们选取了多种AI模型进行对比测试，最终确定选用多层LSTM循环神经网络实现小区退服告警预测，以达到故障预警分析的目的，实现了变被动处理为主动预防的运维思路转变，摆脱“救火队员”的运维状态，达到对故障的事先预判。

Figure 19. Fault prediction
图19.故障预测

06 、总结

通过运营商网络部、网管、分公司、县公司一线维护人员目标使用者，基于人工智能(AI)的运维解决方案，可提高维护效率和能力，预防性主动运维能力、快速响应的报告能力、快速应急处理能力、自动化减少人为工作量、经验移植减低人员要求、支持市场前线的分级保障能力。使平台融入运维生产中，实现商业目标。

【本文为51CTO专栏作者“移动Labs”原创稿件，转载请联系原作者】

戳这里，看该作者更多好文