AI落地无线网络运维四大难题待破解-51CTO.COM

随着无线通信网络的发展，未来网络在频段和组网上将更加复杂，再加上业务多样性和终端的多类型，无线通信系统的规模和复杂度将日益增长。

对于未来体系庞大的通信系统，无线网络运维将面临诸多挑战，例如虚拟化与网络演进增加运维复杂性，单个问题可能会触发多个网络区域的告警;用户需求对网络运维质量要求提升，期待延迟容忍度从300毫秒降低到10毫秒;网络中可供分析的大量数据难以处理，实时分析数据量将增加1000倍以上等。

无线网络运维中因此而出现了故障分析定位及故障溯源困难、故障无法预测、运维派单不准确、现有的响应式运维模式效率低、客户体验差等问题。面对这些网络运维的压力和挑战，分析、拟合、经验流等传统的处理方法，已经越来越难以解决无线网络运维的问题。

[[248894]]

人工智能为网络运维带来曙光

人工智能的再上巅峰，让无线网络的运维系统看到了一线曙光，通过引入AI这柄“利器”，依托人工智能的自学习、深度学习能力，可以在海量的运维数据中抽取隐含的关联特征和规则，追溯事件根因、指导故障分析和定位，同时可以通过共性特征的提取总结，对未来事件进行预测。

例如，结合提供的告警、资源、网络拓扑数据，采用相关人工智能方法探知故障告警之间关联关系及故障原因定位因素，形成故障定位体系及网络维护管理体系，提升故障解决效率;基于无线网络数据，采用相关人工智能方法分析和定位影响用户感知的根源问题，并指导运维部门提供系统性的优化解决机制;利用人工智能算法，以用户侧数据和网络侧数据为基础，分析用户群体特征，找出影响用户网络感知评分的关键因素，预测用户对通信网络的满意度，及时发现用户对于网络贬损的真正痛点，为运营商网络运维策略提供依据，从而提升用户体验。

尽管人工智能在无线网络的运维中有着非常良好的应用前景，并且许多运营商和设备商已经开展了探索和尝试，但至今业内仍然缺乏标杆式的案例及规模性的应用，究其原因，有几个关键问题横亘在AI和通信网络之间，阻碍了两者的结合。

问题一：无线网络数据可用性差

AI是数据“喂”出来的，无线网络拥有庞大的数据，这本是智能运维的最大优势，但是当前的无线网络数据维度高、数据类型多、数据量巨大、缺失数据多、不同设备厂家数据格式不统一，种种因素导致无线数据的使用成了AI在网络运维中的第一道门槛。主要问题如下。

一是无线数据可以从频谱测量仪表、用户终端、基站端与核心网设备、应用服务等多处获得，原始数据中包括物理层、接入层、网络层、应用层等数据，这些数据体量大，需要AI运维设计者非常清楚和准确地判断提取哪些数据，并考虑如何组合利用，稍有不慎就会导致结果背道而驰。
二是数据获取审批难。由于无线网络数据涉及用户个人隐私，考虑到信息安全和隐私保护，获取无线网络数据往往需要各种审批，时间周期长、流程繁琐。
三是不同的设备厂家能够提取的数据的格式、特征名称、数据的计算方式都不相同，能够提取到的数据时间粒度也不一样，难以统一。
四是数据量大，保存历史数据量有限，往往只能保存最近半年或一年的数据。但是，AI中对于时间序列的分析往往需要较长时间的历史数据才能训练出规律。因此，长期数据的存储和获取也是需要解决的问题。
五是数据处理难度大，无线网络每天将产生百TB级别的数据。如何对海量数据进行清洗、标准化、实施特征工程等是巨大挑战。
六是数据缺失或错误类型多。由于无线网络数据维度多数据量大，在提取数据的过程中会造成各种不同类型的缺失或错误。不同的数据类型有不同的合理值，在处理错误数据的过程中需要考虑诸多数据的异常处理，难度大。

为了解决数据的问题，行业需要联动，形成统一数据标准，针对无线网络数据，由权威的协会、联盟或国家部门制定统一的数据标准，包括数据格式、参数定义、计算方式等多个方面，降低数据处理的复杂度。还要进行数据脱敏，主要针对含有用户隐私或涉及信息安全的数据进行加密编码，这将有效保护个人隐私，并且不影响AI算法对数据的分析。另外需要加强分布式并行处理，对于大体量的无线数据集，建立分布式系统，并行处理数据，提高效率。

问题二：无线网络AI算法的应用难题

无线网络场景复杂多样，具有随机性和多变性的特点，有些场景下直接采用AI算法可能无法收敛或者效果比较差。这使得无线网络运维中AI的应用面临诸多挑战。

一是无线网络建模难度大。无线网络场景多、数据维度多、时变性强。针对无线运维中的导频功率调整、边缘吞吐率提升、M-MIMO波束调整、D-MIMO智能簇分配、多天线特性增益等多种场景，信道变化随机性强，如突发的天气或突发事件将会影响网络参数，难以准确建模。
二是求解复杂度高。例如求解与用户感知速率相关的网络指标，涉及RRC建立请求次数、UE会话时长、下行TTI调度次数、下行采用64QAM的PRB个数等上百种参数，再加上时间维度的参数，求解非常复杂，而且在很多情况下难以求得最优解。
三是无法准确分类。无线网络的类别多种多样，存在诸多差别，难以找寻共性来准确表述。例如，在故障运维的分类问题中，网络中的故障通常表现出多样性，比如告警、KPI异常或业务不通等，故障告警很多时候不能准确地反映故障信息，即使运维人员也难以辨别，运用人工智能的算法也许需要做大量的故障标注工作，很多故障涉及的特征很多，难以准确分类。

针对AI算法的问题：

一是可以建立动态学习、持续学习算法，应对突发问题。目前主流的AI算法应用主要是针对静态数据进行学习，不是基于动态数据的持续学习来完成的，这很难解决具有突发性、不可预期性、不可重复性的无线网络运维问题。因此需要建立动态环境下AI学习算法，收集历史的突发情况，总结规律，当运维系统发生异常行为(比如被恶意攻击)或者外部环境变化(比如恶劣天气引发的信道突变)导致的突发性变化时，人工智能系统在没有相关处理经验情况下也能具有相应的处理能力。
二是可以强化学习，建立规则库。学习一个策略函数，以最大化长远收益为目标，建立一个观察值到输出行为的映射关系。针对无线网络运维中的问题，根据系统中网络及业务上下游关系，综合多维度历史数据分析，挖掘出潜在特征和规则，输出事件和特征的匹配规则库。在实际网络运维中，根据特征自动匹配规则，给出判决和处理建议。运维结束后，根据当次运维结果的有效性反向修正、强化现有规则系统，进行自学习和自优化。
三是根据业务知识做特征工程。结合通信专业知识和人工智能特征工程的方法，通过增加特征、筛选特征、数据建模增加时间维度等，求解出对结果至关重要的特征。

问题三：无线网络AI系统开发的挑战

无线网络AI平台系统开发过程中的挑战主要在以下几个方面。

一是数据预处理阶段，会涉及大量的无线网络数据文件随机读写的问题，如何提高数据访问效率是在数据预处理阶段面临最大的挑战。
二是数据处理阶段，由于数据维度多、体量大、数据格式不统一，很难设计出具有普遍适用性的数据处理模块。
三是训练阶段，因为会涉及到大量的模型调优，训练出一个最优的模型，需要巨大的计算资源。
四是结果推理响应阶段，当成千上万的数据批量过来的时候，如何提高整个系统的吞吐率，及时做出响应，是结果推理段面临的挑战。
五是设计可以不断学习和自适应的人工智能系统，使其可以做出及时、稳定、安全的决策。
六是设计支持个性化服务的系统，同时要保护用户的隐私和保证用户的安全。

对于上述挑战，无线AI系统在开发时需要注意以下功能特点。一方面要考虑采用CPU+GPU+FPGA混合异购模式的高效单元，能高效进行离线数据分析和在线数据实时分析。无线AI平台需要具备对于多种不同制式不同结构类型统一处理的能力，可以快速、稳定地处理于无线业务所产生的海量的结构化、半结构化和非结构化的数据信息。

在无线业务场景中，有诸多应用需要根据平台的在线计算做出实时决策，无线AI系统需要针对无线中众多需要实时服务的业务场景，提供相应实时在线分析能力。所提供的实时分析，可以根据不同的业务需求设定为小时级、分钟级、秒级甚至是毫秒级。

另一方面要具有高性能的分布式存储能力。由于数据形式非常多样，需要结合应用场景进行数据清洗、特征提取等预处理，并根据不同结构类型的数据，定义统一的表示形式。然后根据后续业务需求，将数据分布存储到不同的服务器上，以供其他模块调用。

AI在无线网络中应用的综合挑战

除了技术层面的几个关键问题外，AI应用于无线网络还存在着硬件部署、软件开发、人才、成本等方面的问题。应用于AI处理的GPU设备大小不符合传统机房机架的尺寸，而且需要专门风扇提供散热机制，供电和部署对于通信行业都是难以解决的问题。

由于无线网络的从业人员主要是掌握的是通信体系的知识，对于软件开发及数据算法建模等知识不太了解，因此存在人才短缺和软件开发方面的困难。改造机房、购置AI处理设备、聘请专业开发人员或AI算法工程师，将会需要巨大的成本开销，对于运营商来说将是一个不小的压力。

面对这些问题，电信运营商、设备商需要勇于创新，敢啃“硬骨头”，在数据规范化、行业统一化方面行动起来，齐心协力解决共同难题。同时也要沉下心做好功课，“吃透”AI，面对技术难关不怕投入，迎难而上，终会收获回报的果实。各方还要开放心态，结合AI产业界的力量，与AI公司、互联网行业合作，共同开发平台，找到共同盈利的商业模式，优势互补，最终为全社会打造一个智能化、泛行业化、人性化的移动互联网络。