视联网关键技术探索（一）-51CTO.COM

1、视联网是什么？

2030年，全球带摄像头终端数量将达到130亿台，视频流量将成为网络流量中的主体，视频物联市场已成为新的增长引擎和竞争高地。随着ChatGPT发布，AI技术出现革命性提升，视频物联在AI技术的加持下，全新的应用场景将大量涌现，比如智慧家庭、城市大脑、车路协同等等，而视频、物联、AI的进一步跨域融通，也面临一些挑战：

算力协同，视频数据处理需要大量算力支持，单点算力受摩尔定律制约，难以满足快速增长的智能化应用的计算需求，需要云网算力协同，比如车路协同场景，终端设备算力有限，需要将智能分析卸载到边缘节点进行计算。
多媒体传输，在智能监控、语音社交、视频社交、游戏语音和互动直播等领域，对多媒体传输时延的要求越来越高，需要低时延、高速、安全、实时的多媒体传输，受互联网环境限制，优化提升空间有限。
泛在连接，人类社会传播的文字、语音、图像等信息从未像今天这样呈指数级的增长，一方面信息大量过载，一方面因缺乏互通，使信息孤岛问题日益严重。随着数字化推进，需要强化多维感知、万物智联。

视联网是在5G和宽带网基础上，通过云网融合能力升级，接入视频、摄像头实现物联网可视化，打造以内容密度更高、更易接受的视频为主要信息载体的新型互联网络，支撑高速增长的视频、物联、AI需求。

中国移动智慧家庭运营中心经多年技术积累，基于AIoTel物联网多媒体通信能力、泛安防监控能力、场景化AI能力3大核心能力，攻关视联网关键技术，构建视联网能力平台，孵化移动看家、和家智话2类全网业务，以和家亲APP为智家服务入口，创新探索多类信息服务场景，打造1+2+3+X泛家庭信息服务体系（如图1），支撑泛家庭市场高质量发展。目前基于视联网能力，接入智能终端数达千万级规模，用户规模、云存储规模位居业界第一。

图1 1+2+3+X泛家庭信息服务体系

2、视联网技术架构

视联网为了突破大规模视频物联在感知、传输、存储、算力等方面的技术挑战，视联网的技术架构一般包括基础设施、平台能力、平台服务和能力开放。通过构建包括端、管、云、智、安等环节的关键能力，对智能感知技术、音视频编解码、多媒体传输、云原生、云边端协同、全链路安全保障等技术进行深度融合，向上为平台服务提供能力支撑。平台服务为客户提供全面、丰富的视频物联服务，并通过能力开放服务对外输出视联网能力。技术架构如图2所示。

图2 视联网技术架构图

为支撑超大规模视频物联服务，视联网的部署架构（如图3所示）通常采用“1+N+31+X”的四级部署架构，第一级的业务中心，用于运行核心的业务系统，承载重要用户数据，采用同城双活和异地热备的两级容灾模式，保障核心业务系统可靠运行；第二级的能力中心，用于终端接入、用户接入的实时调度，采用分大区模式进行区域化管理；第三级的省级节点提供视频转发、直播、存储、计算等服务，将全网业务划分到每个省，实现数据不出省、降低跨省主干网带宽消耗，同时可满足视频物联专业项目的数据安全性要求；第四级的边缘节点按需建设，将存储、算力下沉到地市、县区级别，提供边缘推流、存储、计算服务，能显著降低视频传输时延，提高存储和视频AI推理的效率。“1+N+31+X”部署架构具备就近接入、二级容灾、存智一体的特点，为视联网提供低时延、高速率、强安全、强计算的使用体验。

图3 视联网部署架构图

3、视联网关键技术之：智能感知

智能感知是视联网在最末端（端侧）的技术体系，围绕智能、接入、多模态等方面关键技术进行攻关，实现一个多维融合、立体丰富的感知平面。

1️⃣ 多传感融合：烟感、气感、门磁和摄像头等各类智能终端都可视为传感器，将多个传感器的特征进行互联，实现多模特征的时空融合，支撑上层应用制定更精确的决策。通过提取多个视联终端的特征数据（如图4所示），在边缘节点进行智能分析，进行特征级融合，通过云端联动不同设备的事件，例如：在烟气感触发告警时，联动监控设备拍摄烟气感的监控范围，进行精准监控。

图4 多传感器融合原理图

2️⃣ 脑启发编码：基于人类大脑视杆、视锥细胞对2D信息的处理机制（如图5所示），区别于传统视频编码技术，对视频图像进行脑启发编码，提高像素编码的压缩上限。目前大规模设备的视频采集具有极大的信息冗余，同时搭载算力芯片的智能设备具有一定的AI检测识别能力，能够对数据进行预处理提取关键信息，通过脑启发编码技术，大大降低传输带宽并缓解了云端运算的压力。

图5 人脑处理机制示意图

4、总结

以上我们介绍了视联网的技术背景及其面临的技术挑战，视联网技术架构通过构建端、管、云、智、安等环节的关键能力，向上支持平台服务，并通过能力开放支撑高速增长的视频、物联、AI需求，中国移动智慧家庭运营中心基于视联网能力，接入智能终端数达千万级规模，用户规模、云存储规模位居业界第一，落地超大规模视联网应用。