OpenAI 在 2022 年 11 月发布了对话型大语言模型 ChatGPT,提供了高度智能化的人机交互体验和极富创造力的内容生成能力,模型一经发布,就得到全世界的广泛关注。在 ChatGPT 火爆以后,中国科技企业纷纷投入大模型的相关工作,包括通信厂商、互联网厂商、AI 厂商,以及很多初创公司,从算力层、平台层、模型层、应用层等各个层面进行全面布局和突破,涌现出华为盘古、百度文心一言、阿里通义千问、科大讯飞星火认知等一批具有行业影响力的大模型产品。
对通信行业来说,大模型技术表现出的技术能力和潜力,让业界普遍认为,大模型技术不仅在自然语言处理、计算机视觉以及多模态领域有广泛的应用前景,在通信网络中大模型技术同样可以大有可为,能够促进通信网络自智能力持续提升。
本文针对通信行业在智能化发展方面的痛点,分析大模型技术的优势,针对大模型技术在无线通信领域,特别是无线通信网络智能运维方向的应用进行分析,重点聚焦在大模型技术背景下,如何将 AIGC 技术和网络运维需求相结合,进行应用场景和模型构建的相关探讨。
一、无线网络 AI 技术应用的前景与现状
随着5G无线通信网络的发展,无线网络的架构日趋复杂,终端类型和业务应用也不断增加,覆盖增强、网络资源管理、干扰提升、跨制式和跨层优化、节能等问题不断突出,多场景、多制式、多目标等问题日趋明显,每一维度的’多’都为网络建设、运营和网络优化带来了更高的挑战。从通信技术本身来说,存在大量传统方法难以进行精确数学建模或者高效求解的技术问题,而AI技术在自然语言处理和计算机视觉等方面的突飞猛进,推动了近年来 AI 技术在通信系统中的广泛研究与探讨,目前的研究热点包括:
- 网管领域:系统容量、覆盖、故障率、负载均衡、异常检测等多方面的性能优化;
- 核心网:智能业务质量定义与分配、切片状态分析、用户体验分析;
- 接入网:智能无线资源管理、接入控制、调度算法;
- 无线AI算法研究重点:基于 AI 的编码、调制、多址、多天线、波束管理、定位、感知、信道估计/预测、接收机算法等。
从业界广泛的研究和探讨[1][2]进展可以看到,AI技术应用到无线通信网络,尤其是无线空口侧存在以下挑战:
- 缺乏科学公开的数据集:行业的不同机构采用的数据集并不统一,研究结果难以相互验证;
- 无线 AI 数据和应用具备自己独特的特征,如何将自然语言处理和计算机视觉领域的前沿 AI 算法,与无线数据以及无线领域专家知识进行有机融合尚不明确;
- 无线通信系统的显著特征之一是通信场景复杂多变(室内、室外、高铁等)与业务形式多样,如何让无线 AI 方案在有限算力前提下适用于多种通信场景与业务形式,是业界目前需要克服的重要挑战;
- 无线 AI 的链路级和系统级性能上界尚不明确,在综合考虑算力、功耗、数据集、信令开销等成本的前提下,AI 方案对比传统基于专家知识的设计是否有性能增益等重要问题还缺乏系统科学的分析与论证,这是无线 AI 未来标准化和产业化落地的先决条件。
这些问题,导致AI技术在无线网络的空口层面短期难以落地,而业界更多的面向6G无线AI的应用进行探讨和尝试,而目前AI技术在无线网络的实际应用主要集中在智能运维领域,所以,本文重点针对大模型技术在智能运维的应用进行探讨。
从5G无线网络智能运维的角度,如何将AI技术应用于5G无线网络,提升网络的性能和效率的需求日趋强烈,业界已经在规、建、维、优、营等网络智能化方面有大量实际应用。从一方面来说,5G网络架构复杂、参数众多,从另一方面说,5G网络难以获得站点环境、组网环境、用户体验、业务质量等影响网络部署和资源分配的关键因素;而AI技术在特征提取、感知预测等方面具备优势,如何利用先进的AI模型和算法,解决移动通信网络对无线环境、业务体验的感知和预测,从而提升网络性能和业务感知,将是当前阶段的一个急需突破的工作。
二、大模型技术在智能运维应用的前景和挑战
从目前OpenAI推出的ChatGPT和之后GPT-4产品来看,大模型技术拥有一些重要的技术特征[3],具体包括:
- 知识抽取能力:GPT系列产品拥有庞大的世界知识,包括事实性知识和常识,可以提供知识的查询和检索,而且可以进行知识的归纳和总结,甚至提供简单的知识推理和证明能力。
- 符合人类习惯的交互方式:以遵循提示(prompt)并生成补全提示词的句子的语言生成方式,通过上下文学习保持对话一致性,能理解人类意图并用自然语言回答问题、生成内容和解决问题,改变了现有人机互动方式及人类获取世界知识的方式。
- 跨语言及多模态交流能力:不仅可以处理多种人类语言,还可以理解图片内容,为人们提供更加便捷的交流,此外还可以将人类语言与机器语言进行相互翻译,促进了人机物三元世界的融合。
- 自我学习和自我进化的能力:能够自动从海量数据和人类指令中学习到其中的世界知识,学习过程不需要人的介入,而且可以自行检查学习成果并不断优化迭代,能灵活应用所学知识来解决实际问题。
根据大模型技术展现的这些技术特征,针对无线通信的智能运维应用,大模型技术在以下方面有明显的技术优势:
- 模型平台统一问题:从AI技术在通信的应用情况来看,面临场景多样和需求复杂的问题,任务多样,而不同的任务又有不同的数据需求;从模型应用来看,不同的任务很难定义统一的评价目标,导致不同的场景需求需要不同的AI模型,出现“大炼模型”的行业现状。而大模型技术,能够处理自然语言处理的多种任务,同样的,我们希望,大模型技术也能应用于智能运维的多种任务,构建统一的模型平台。
- 数据集的多来源问题:从数据集方面,通信行业虽然拥有大量网络数据,但是数据来源和数据形式多种多样,从之前的AI应用来看,数据的清洗、筛选等处理是一个极其耗费人力的工作。而大模型技术在预训练过程使用了多种不同来源的数据集,具备处理多模态数据的能力,对数据的式样和分布兼容性较高,可以通过微调等技术便利的应对数据的多来源问题。
- 功能迁移能力:大模型技术具有强大的知识抽取能力,而智能运维的大量任务可以归类为知识抽取任务,比如告警的根因分析、干扰识别等任务;大模型技术在自然语言处理中有大量的序列转导任务,比如翻译任务,而对于无线网络基于用户体验和网络环境的网络优化来说,存在用户感知与网络KPI的映射、网络KPI与设备状态的关联等需求,这些需求都可以类似于序列转导任务来进行解决。
- 模型的增量学习和进化:机器学习模型假设数据分布是平稳的,即训练时接受同分布的数据训练。但是无线网络随着业务种类和用户流量的持续增加,网络的状态也在不断发生变化,需要模型能够持续的增量学习,而大模型技术的自我学习和进化能力非常适用于网络的持续优化要求。
对于构建电信行业大模型,需要利用行业数据对大模型继续微调或重新训练,以提升模型的专业性。从行业数据角度,通信行业基于标准化的体系架构,是一个高度标准化、数字化的专业领域,已经积累大量的历史数据,经过场景业务梳理和对数据的处理,可以转化为大规模、多样性、高质量的有效训练数据集,在行业数据方面具有构建行业大模型的必要条件。
图1 通信领域的数据优势
虽然大模型技术在无线网络的应用前景广阔,但是,依然存在一些具体的问题和挑战,具体包括:
- 数据质量要求:从大模型的训练来看,模型性能对数据有比较高的质量要求,如何针对跨厂家跨域的数据质量进行一致性要求,将是影响大模型技术在通信网络应用的一个关键问题。
- 可靠性要求:从目前大模型的表现来看,无法达到较高的置信度,存在“一本正经的胡说八道”的现象。对于通信网络,可靠性要求远超过GPT产品在互联网的应用要求,在无线通信系统原有技术的基础上,如何基于移动网络的数据和专家经验,提升大模型技术的可靠性?
- 小型化要求:大模型技术在无线网络的应用落地,大模型能做到多‘小’?通过模型蒸馏等技术,模型变小后,可靠性、可迁移性能否满足运营要求?叠加大模型后,需要整体考虑算力、性能、成本等等综合收益。
- 安全性要求:大模型本身有数据安全泄露风险,如何解决安全性、隐私性问题?
三、基于大模型技术的智能运维平台构建探讨
针对大模型技术,首先基于智能网络三层架构,进行技术拆解。考虑大模型作为统一技术底座,提升功能模块的通用性,改变从异构的单一模块设计弊病到功能模块的内核统一化;形成统一的模型训练和模型下发,提升模型的可迁移性和可靠性;形成统一的评估模型,便于异厂家、异构网络的互联互通。
图2 智能网络架构和解决方案
针对大模型技术在智能运维的应用,考虑在智能运维当中,日志本身就是一种近似自然语言的文本,可以通过大模型技术来加强对日志文本的理解;可以采用预训练和指令学习,根据多场景任务需求,建立统一的平台框架。对于应用场景,以异常检测为例,将日志按照模板进行日志解析和数据构建,利用大模型技术平台进行日志分析,进行告警压降、异常检测、故障预测和诊断等相关任务。图3展示了利用大模型技术针对告警压降场景进行的应用效果,根据告警数据和专家经验构建训练集,将告警日志导入大模型进行告警压降,根据专家规则的数据进行验证,效果良好,表明大模型技术具备日志理解、分析和挖掘的巨大应用潜力。
图3告警压降应用示例
借鉴LangChain技术框架,综合考虑智能运维的场景任务和应用需求,基于大模型技术构建智能运维的平台框架主要包括下面几方面组成部分:
- 日志数据:针对网管数据进行预处理,包括数据清洗、特征提取、数据归一化等,以便后续的分析和建模。
- 向量数据库:将日志数据按照相应的分类、模板进行处理,使用适当的向量表示方法将处理后的日志数据转化为向量,需要考虑数据高效存储和快速索引,以及数据的更新等。
- 提示模板:确定提示的目标和场景,结合思维链(CoT)技术,收集与目标和场景相关的上下文信息;基于收集到的上下文信息,设计出适合的提示模板,包括针对各种任务的提示内容;结合具体应用场景个性化定制,根据网络不同发展阶段的性能需求,对提示进行进一步精细化定制;对提示的效果和应用反馈进行监控、分析和持续更新。
- 知识图谱:在智能运维领域,利用专家经验构建知识图谱可以帮助系统更好地理解和应用领域内的专业知识。通过收集专家知识、知识抽取和表示、知识建模、知识融合、知识验证等步骤,构建知识图谱,应用于智能运维系统中,用于相应的各类场景和任务。
- 大模型平台:首先需要根据场景和目标,选取合适的大模型平台。然后利用日志数据,对模型进行微调或重新训练,以保证模型平台应用在智能运维中的专业性。另外,整体考虑算力、性能、成本等等综合因素,需要对模型进行量化、压缩等优化处理,以提示模型的效率。
- 智能代理:作为应用接口,根据任务的目标和场景,利用向量存储的日志数据、提示模板和知识图谱,进行任务分解,构建相应的上下文信息,进行合适的日志抽取和提示构建,综合利用专家知识、专业应用程序和大模型平台执行相关任务。
图4 智能运维平台框架
四、大模型技术在智能运维平台的应用尝试
针对大模型在智能运维的应用,包括网络AI大模型支撑的场景和任务研究、网络AI大模型高效集成方案研究、网络AI大模型成效评估体系研究等研究任务。当前阶段,重点考虑利用大模型技术底座,构建多任务统一框架平台,并进行了应用验证。
基于ChatGLM2-6B基础大模型,采用P-Tuning v2方法微调训练,验证大模型技术的推理能力。考虑根因分析和异常检测是运维中最基础和关键的功能,将根因分析和异常检测作为三个单任务构建模型进行验证,测试评估结果如下。
任务 | Prompt格式 | 测试集准确度 |
根因分析 | "prompt": "告警数据有2条,第0条数据中,子原因是人为操作,告警项是RHUB不在位,故障类型是规划RHUB,小区号是NoCELL,发生的时间顺序是3374,第1条数据中,子原因是链路异常,告警项是射频单元不在位告警,故障类型是规划RRU,小区号是NoCELL,发生的时间顺序是20,“ "response": "这条告警数据的根因是链路异常。“ | 97.7% |
"prompt": "告警项有3个,分别是时钟进入异常运行状态,小区退服,XN链路断开。", "response": "这条告警数据的根因是:时钟进入异常运行状态。“ | 90% | |
异常检测 | "prompt": "多维指标数据列表为[100.00, 0.00,100.00, 2.00, 4.00, 0.09, 0.00, 0.09, 3.52,486.61]。" "response": "这条数据异常“ | 87.4% |
进一步的,输入多种任务训练数据,通过微调训练得到混合任务模型,并对该模型进行多任务推理测试,测试评估结果如下。
任务 | Prompt格式 | 测试集准确度 |
根因分析 | "prompt": "告警项有3个,分别是时钟进入异常运行状态,小区退服,XN链路断开。", "response": "这条告警数据的根因是:时钟进入异常运行状态。" | 84.4% |
异常检测 | "prompt": "多维指标数据列表为[100.00, 0.00,100.00, 2.00, 4.00, 0.09, 0.00, 0.09, 3.52,486.61]。" "response": "这条数据异常" | 87.1% |
从验证效果看,基于大模型技术,对比传统技术,单项任务的性能获得明显提升;针对多任务混合模型,大模型技术也呈现出非常优越的性能,说明基于大模型技术具备建立统一的平台框架的可能性。在后续工作中,还将继续尝试更大规模模型,结合微调优化方法,提升现有任务性能;进行更多混合任务评测及性能提升,充分验证多任务统一框架平台的可行性;考虑使用Long Chain外挂网管运维专业知识库,构建AI Agent智能代理,实现运维自动化的跨越式提升。
本文初步探讨了基于大模型技术构建智能运维平台的应用场景和平台框架,进行了分析和应用尝试,我们有理由相信大模型技术在无线网络的智能运维领域具有广阔的应用前景,通过提升网络的智能化和自动化水平,可以极大的提高网络的可靠性、性能和用户体验。
参考文献:
- 《6G物理层AI关键技术白皮书》 中国移动通信有限公司研究院 2022年。
- 《6G无线内生AI架构与技术白皮书》 中国移动通信有限公司研究院 2022年。
- 《AIGC(GPT-4)赋能通信行业应用白皮书》,亚信科技、清华大学智能产业研究院,2023 年。