Part 01
语义通信技术
平安乡村业务的快速普及以及摄像头的高清化,为用户的生活带来“安全感”,但同时也面临接入终端海量接入、码率持续增长、场景日益复杂等方面的挑战。传统框架内用计算复杂度换压缩率的编码优化路径,码率下降幅度渐缓,呈现瓶颈趋势;同时,通信信道容量已趋近极限,难以满足快速增长的海量视频数据在传输、存储、分析等方面的需求。人脑可达到超高的图像视频压缩性能,其机理为视觉皮层具有边缘检测、形状识别、运动识别等功能,下颞叶能识别复杂物体和面孔,即提取结构化的语义信息。传统的图像视频通信以像素为表征单元,不能契合自然图像所蕴含的对称性、重复性、相关性等结构特性,表征效率难以大幅提升。向人脑视觉感知、认知机理学习,以人工智能学科为基础,探索视频语义表征模型,可在一定程度上提升表征效率。语义通信借鉴人脑超高图像视频压缩性能机理,突破现有理论框架,将人脑视觉感知、认知机理融入通信过程,实现高效语义表征和极低码率下视频的清晰度和流畅度。
研究基于语义的多媒体通信技术,在网络受限场景下,实现高质量、低带宽、低存储多媒体语义通信,并推进相关技术成果在平安乡村的验证及应用,技术指标及应用规模达到国内外领先水平。不同于传统视频压缩以像素为单元,语义通信提取图像语义信息实现高效压缩,在编码端资源有限的情况下,实现高效准确的语义表征,并在接收端精确图像。
- 语义通信编解码技术
语义通信编解码技术建立基于场景任务的共享先验知识库,将编码端目标语义提取与解码端目标生成联动起来,编码端根据先验知识检测视频帧中的目标,进行语义提取并转化为二值素描图编码传输,解码端根据知识库和素描图进行目标生成,并与背景图像融合,重建视频。通过联合视频语义编码的紧凑特征表征及高效特征检索,实现海量视频的快速检索,用于安防等业务场景中。
图片
其中对于海量视频特征检索对性能要求高,为了保证视频检索快速准确,语义通信提出视频编码与紧凑特征表征的联合优化方案,获得更紧凑的特征描述子。基于强化学习构建树形索引结构,在保证精度的同时提升检索效率。
图片
图片
- 视频语义通信QoE度量关键技术
当前QoE通过研究视频分辨率、卡顿时间、帧率和比特率等视频客观因子对用户主观体验的影响,优化多媒体内容的QoE体验。然而这些QoE影响因子研究聚焦于视频客观特征,无法有效反映语义信息对用户体验的影响。提出基于语义因子的QoE评价方法,建立面向语义通信的评价-反馈机制。
对于语义通信系统一般场景的QoE评价,采用平均关键点距离,关键点缺失率和平均欧式距离作为影响因子,结合传统QoS起播时间、缓冲比率、平均媒体码率,以及视频分辨率、帧率和比特率等客观因素。
计算语义通信视频QoE评价之后,需要以此指标反馈调节并优化整个语义通信系统。基于语义通信特点和流程,设计语义QoE的指标与反馈调节机制。在主观QoE预测中增加语义因子,使得预测模型模型的预测值接近真实用户评价,同时在客观QoE指标计算中基于像素、部位以及时序排列三个层级设计指标。通过云端与客户端的QoE计算结果进行反馈调节,在系统产生关键点偏移、帧数下降、轮廓扭曲、时序不稳定时,说明此时视频重建质量低,启用轮廓约束、调整传输码率、增加关键点数量,编解码模型调整优化系统,以满足用户需求。
图片
Part 02
结尾
相比主流H.265编码,在主观质量相当的情况下,基于语义通信的视频传输平均码率降低80%以上,在多用户场景下,相比主流H.265编解码传输,基于语义通信的计算和存储开销降低50%以上。为了推进多媒体语义通信技术在平安乡村的应用实践,在江苏省南通市富民村示范应用平台,完成数字乡村示范应用平台搭建,验证多媒体语义通信在平安乡村四大场景应用以及语义通信QoE反馈评价效果。通过场景检测,利用静态场景一致性强的语义特点,预计可为平安乡村场景节约云存储、带宽60%以上,约7.5亿元/年。
图片