AIoTel下视频编码技术（下）-51CTO.COM

在进入正题之前，我们先回顾下《AIoTel下视频编码技术（上）》。在《上》中我们给出了AIoTel定义，即：AIoTel是一个组合词，它由AI+IoT+Telephony拼接而成，表达由智能设备、物联网、多媒体通信等技术构建的新型多媒体交互体系，也称作物联多媒体。接着讨论了AIoTel及媒体特征，以及这些特征决定的AIoTel编码技术必须满足自适应、场景化等要求。

图1 AIoTel通信

1、视频编码在AIoTel中的挑战

在AIoTel中，视频编码面临着诸多挑战。首先，带宽限制和硬件资源限制要求我们提升视频编码的压缩效率。其次，为了保证良好的用户体验，我们需要改进视频质量和复杂度的平衡。此外，如何在保证视频编码性能的同时，保护用户的数据隐私和安全，也成为了重要的挑战，总结起来有以下四个突出特点：

1️⃣低延时和高效率

在很多AIoTel应用场景中，如和家智话、智慧车载等，需要实现实时的视频传输和处理。H.266/VVC（Versatile Video Coding），虽然在编码效率上比H.265提高了超50%，但其编码复杂度增加10倍以上，无法满足AIoTel设备低算力高实时的要求。

图2 H26X 码率比较

2️⃣高质量和高分辨率

高清、超高清等高分辨率的视频成为了趋势。2022年，全球有超过82%的互联网流量由视频内容产生，其中4K和8K视频的占比大幅增加。这对视频编码技术提出了更高的要求：一方面，AIoTel设备的计算和存储资源有限，需要高效的视频编码算法以减少计算和存储压力；另一方面，物联网设备通常通过无线网络进行通信，带宽资源有限，也需要高效的视频编码算法以减少传输压力。

3️⃣安全和隐私保护

在AIoTel设备中，视频数据往往涉及到个人隐私或者商业机密。如何在视频编码过程中保护视频数据的安全和隐私，是一个具有战略意义的研究方向。根据Check Point Research(CPR)的报告，2022年，物联网上的网络攻击事件增长了38%，其中涉及到视频数据的攻击事件占比显著增加。这说明了安全和隐私保护在视频编码中的重要性。（https://zhuanlan.zhihu.com/p/597994525 2023.1.10）

4️⃣跨平台和跨设备的兼容性

在AIoTel系统中，视频数据需要在不同的平台和设备之间进行传输和处理。如何实现跨平台和跨设备的视频编码兼容性，仍然是一个挑战。据Sandvine最新发布的《2023全球互联网现象报告》显示，2022年的全球物联网视频流量同比增长23%，其中，跨平台和跨设备的视频流量增长最为显著，约占总量65.93%。（https://www.ennews.com/news-41889.html 2023.4.24）

图3 AIoTel设备接入多样性

接下来，我们就以上挑战，提出我们的应对思路，包括引入语义通信和大模型。

2、应对挑战的策略和技术

针对上述挑战，我们提出了包括云端和边缘的协同处理、高效网络传输以及兼容性等多方面应对策略。

2.1 云端和边缘的协同处理

随着AIoTel网络中设备数量的增加，如何有效处理和编码视频数据，以实现高效的数据传输，是当前面临的重要挑战。云端有强大的计算能力，可以进行高质量的视频编码，但其需要较大的带宽和延时，这对实时应用带来了阻碍。而边缘设备由于临近用户，具有低延时的优势，但其计算能力有限，可能无法进行高质量的视频编码。因此，云端和边缘的协同处理成为一种可能的解决方案。通过在边缘设备上进行预编码，然后在云端进行终极编码，可以在保持编码质量的同时，减少了约30%的带宽需求。

图4 云边端协同编码

2.2 提升编码效率

根据IDC预测，到2025年，物联网设备生成的数据量预计将达到73.1 ZB，（http://www.jiyikeji.cn/trends/news-id/43/ 2022.5.20）这将给视频存储带来巨大挑战，在传统的视频编码技术中，H.266/VVC相较H.265，可提升超50%压缩效率，但复杂度提升10倍以上，传统的编码技术演进方越来越接近极限。与此同时AI技术为视频编码带来了新的机遇和挑战。AI可以帮助我们更好地理解和优化视频编码过程，如通过深度学习的方法优化编码参数选择，或者通过强化学习的方法动态调整编码策略。研究表明，使用深度神经网络优化的H.265编码，可以在保持同等图像质量的情况下，比原始编码节省约80%的码率。但这也对计算资源和数据安全提出了更高的要求。如何在保证编码效率和质量的同时，合理使用和管理这些资源，是我们需要解决的关键问题。

2.3 保障数据安全与隐私

在AIoTel环境下，数据安全与隐私保护已成为一项至关重要的议题。面对众多挑战，如设备多样性、数据类型复杂性，以及终端设备安全漏洞等问题，我们需要在视频编码过程中考虑如何更好地保障数据的安全与隐私。

视频数据加密

首先，对于视频数据，我们需要应用加密技术来确保其在传输和存储过程中的安全性。这里涉及到各种加密算法和协议，例如对称加密算法（如AES）、非对称加密算法（如RSA）、以及用于保障数据完整性和认证的哈希函数和数字签名等。

数字水印技术

除了加密技术，数字水印也是一种重要的视频数据保护技术。通过在视频数据中嵌入不可见或难以察觉的水印，我们可以对视频数据进行身份标识和版权保护，同时也能检测和追踪数据泄露和非法分发。常见的数字水印技术有空域水印、频域水印，其中频域水印如离散余弦变换（DCT）水印、离散傅里叶变换（DFT）水印以及离散小波变换（DWT）水印等。

图5 视频水印生成原理

总的来说，数据安全与隐私保护在视频编码中的应用需要我们在技术、架构和政策等多个层面进行考虑和设计。这是一项既有挑战又有机遇的工作，我们需要不断探索新的技术和策略，平衡安全和效率，进一步提升编码技术的数据安全性。

2.4 兼容性和平台无关性

市场研究机构IoT Analytics发布了报告显示，2022年全球物联网连接数增长了18%，达到143亿。2023年全球联网物联网设备的数量将再增长16%，达到160亿个（https://www.sohu.com/a/679524270_121119003 2023.5），海量设备令我们必须面对兼容性问题。首先，选择成熟且广泛被支持的编码标准，如H.264/AVC，可在多种设备和平台上进行播放和解码，如PC、智能手机、电视机、游戏机等。其次，自适应流媒体技术（Adaptive Bitrate Streaming, ABS）可以在网络条件不同的情况下，提供最佳的用户体验。

2.5 语义编码的应用

语义编码是一种新兴的视频编码技术，这种方法可以减少一个数量级的传输数据量。研究思路如下：在发送端发送一个初始参考帧 I_ref，此后只传输人脸关键点信息 Kps_t=F_B（I_t）（ I_t ：原始图像），自定义编码规则压缩数据；在接收端主要通过生成对抗网络（GAN）进行图像重建及显示实现 (I_t) ̂=G（I_ref，Kps_t）（ (I_t) ̂ ：生成图像）

图6 语义编码原理

基于这个思路，我们在AIoTel设备上做了人脸通信实验，节省码率83%：

图7 人脸语义通信实践

3、AIoTel中的大模型与视频编码

大模型是一种革命性的AI技术，我们希望它也能给视频编码带来机会，因此单列一章。

大模型尤其是深度学习模型在诸多领域如计算机视觉，自然语言处理等均取得了显著的成果。模型规模逐年增大，从最初的几百万参数到现今的数十亿，甚至上百亿参数，展示出了深度学习模型处理复杂问题的强大能力。但随着模型规模的增大，训练所需的计算资源，存储需求以及能耗等问题也日益凸显，这对于AIoTel领域来说是个严峻的挑战，因为在AIoTel设备上，通常需要在资源有限的情况下执行模型推理。

3.1 大模型在视频编码中的应用和挑战

大模型在视频编码中的应用提供了新的研究和发展方向。例如，视觉自注意力模型（VIT）、深度生成模型如变分自编码器（VAE）和生成对抗网络（GAN）已经在视频压缩、超分辨率、去噪等任务中取得了一些成果。某些研究工作已经采用深度学习模型替代传统的预测和变换模块，使得视频编码效率得到了一定提升。例如，用于视频编码的深度可分离卷积网络模型DVC，其编码效率相比传统H.265编码提升约30%。

然而大模型在视频编码中的应用也面临一些挑战。首先，训练大模型需要大量的计算资源和数据，这对许多机构和个人来说是不可达到的。其次，大模型通常需要较大的推理时间，这可能会限制其在实时视频编码中的应用。此外，大模型可能会过度拟合训练数据，导致在实际使用中的效果不理想。

图8 Vision Transformer（VIT）

3.2 应对挑战的策略和技术

大模型由于其庞大的计算需求和内存占用，通常需要在有大量计算资源和储存空间的服务器上运行。然而，视频编码则需要在端侧实时完成，这样才能满足低延迟的实时视频传输需求。解决这个问题的一种可能的方向是模型压缩、硬件加速和联邦学习等策略。

模型压缩

模型压缩技术旨在减小深度学习模型的大小和计算复杂性，而不显著降低模型的性能。主要的模型压缩技术包括知识蒸馏、权值量化、结构剪枝等。通过这些技术，大模型可以被压缩为一个小模型，这个小模型可以在资源受限的端侧设备上运行，同时保持相当的性能，使其更适用于实时视频编码。

联邦学习

联邦学习等分布式学习方法可以解决训练大模型所需大量数据和计算资源的问题，通过在设备上本地处理数据，然后仅共享模型更新，大大减少了数据传输的需求。

混合编码

一些研究工作提出了混合编码框架，其中深度学习模型与传统编码模块共同工作，这种方法在提高编码效率的同时，也降低了对计算资源的需求。

硬件加速

硬件加速是另一种解决方案，通过使用专门设计的硬件加速器，如GPU、TPU和专用的AI芯片，可以大大加速大模型的计算。一些设备制造商已经开始在其端侧设备上集成这些硬件加速器，这使得大模型能够在这些设备上运行。

将模型压缩、联邦学习、混合编码以及和硬件加速相结合，可以在端侧设备上运行大模型，同时满足视频编码的实时需求。这是一个非常活跃的研究领域，未来还需要进一步的研究和发展才能实现大模型在端侧设备上的广泛部署。

图9 混合编码器

4、总结和展望

随着AIoT技术的飞速发展，视频编码在AIoT领域中的作用也日益凸显。目前，虽然基于传统方法的视频编码仍然是主流，但深度学习模型在提升视频编码性能，尤其是在压缩效率、视频质量和复杂度平衡等方面已经展示出了强大的潜力，比如语义编码。大模型如GPT-3和BERT等，虽然主要用于自然语言处理，但其在视频编码的应用也逐步被关注。

同时，面向未来，我们可以看到AIoTel中视频编码的一些新趋势：一方面，随着深度学习技术的发展，包括深度生成模型、自监督学习、联邦学习等新技术和方法将在视频编码中发挥更大的作用。另一方面，随着硬件技术，特别是AI硬件的进步，更强大、更高效的编码算法将得以实现。此外，随着数据隐私和安全问题的日益突出，如何在保证视频编码性能的同时，保护用户的数据隐私和安全，将成为AIoTel中视频编码面临的重要挑战。