T·Club技术开放日杭州站精彩回顾：音视频技术创新探索与应用实践 T·Club-51CTO.COM

近日，51CTO面向区域城市，重磅推出的技术沙龙T·Club技术开放日杭州站成功举办！

8月26日，杭州站技术沙龙以“音视频技术创新探索与应用实践”为主题，邀请到来自快手、火山语音、网易云音乐和Rokid四位大型互联网企业技术专家，从音视频质量、语音识别模型、用户视听体验以及音视频技术在AR场景落地等维度出发，结合自身企业业务和应用，分享了音视频技术在不同应用场景的落地实践，使在场的开发者们受益匪浅。

1、KVQ：基于AI的快手视频质量评价

快手图像视频处理分析负责人孙明首先为大家分享了主题为“KVQ：基于AI的快手视频质量评价”的演讲。

快手平台视频内容丰富多样，这些视频记录了世界，分享了不同的生活方式，与此同时也面临着视频质量参差不齐的问题。业界常见的工具并不能满足UGC场景的需求，如何全面有效评估画质是一个亟待解决的问题。而快手视频质量模型KVQ，可以针对复杂的视频内容和低质成因提供一致性的客观质量打分，从而能有效监控UGC视频全生命周期的清晰度状况。

孙明团队基于先验的弱标注方法 (PC、PG) ，以较低的成本构建了一个千万级的异构数据集，其中异构包括单刺激标注（SS）、样本对标注（PC）、先验样本对标注（PG）这三种数据，并针对海量数据提出QPT训练方式。

首先，团队引入模拟线上生产消费链路的退化方式（Degradation Type）进行质量数据的生成，覆盖各种场景，且利用退化空间包含的2x107 种组合形式，对应生成千万级别的无标签画质数据，进而利用PG生成的数据做对比学习，来构建无监督训练模型；其次，团队进一步引入无监督学习（Self-supervised Learning），提出QPT预训练方式，通过质量维度的相关性来获取画质特征，提升跨场景感知能力，奠定了异构数据建模的基础。

同时，无监督学习在公开数据集上将SOTA提升5%，快手场景下平均提升10%；最后，团队引入多任务学习（Multi-task Learning），将上述基于PG数据预训练的模型作为初始化权重，针对SS标注数据采用回归损失函数，针对PC数据采用排序损失函数进行优化，从而用SS+PC数据联合训练的方式对质量数据进行利用，发挥大模型的真正效用，使得模型在不同分数段的预测保序性得到显著提升，快手场景下平均SRCC提升5%。

此外，快手音视频技术团队对快手视频失真分布情况也进行了分析与思考，并发现一个比较重要的现象，将其称之为多峰效应，即画质在时序上呈现多峰分布。团队提出多分支时序网络，并行KL注意力机制模块，高效建模时空分布存在差异的不同失真类型，有效应对针对视频分类任务设计的通用Transformer结构采样较为均匀，不能有效建模少数包含失真帧的技术难点，使公开数据集上提升3%，快手场景下提升5%，并且针对720P/30s/30FPS的视频，处理仅需0.5s，在快手点播或直播能每日执行约7500万次视频质量评价。

快手质量分析大模型KVQ也成为业界首次构建千万级别的异构标注VQA数据集、业界首个QPT预训练模型，提升跨场景感知能力及业界首次在UGC场景胜过商用软件，并大规模落地的视频质量分析大模型。

（完整分享视频请点击阅读原文查看）

2、端到端语音识别中的语言模型融合技术创新与落地实践

语言模型融合是端到端语音识别模型实现领域自适应的核心技术。近年来，“内部语言模型估计”（Internal Language Model Estimation, ILME）方法显著提升了语言模型融合的性能。火山语音针对ILME技术提出了一系列算法改进，语音识别算法研究员陈智鹏就基于此话题为技术沙龙的开发者们带来了主题为“端到端语音识别中的语言模型融合技术创新与落地实践”的演讲。

传统的语言模型是基于深度神经网络的Hybrid语音识别模型，是将声学模型和语言模型独立建模，在解码时，再把两部分的分数相加，形成联合解码。在通用的语音识别场景中，语音识别发挥了重要作用，但对于一些垂直领域或者专业术语，它的准确率并不理想，且单独训练ASR模型的算力成本很高。为了进一步改善智能字幕的用户体验，并节省ASR模型训练的算力成本和数据成本，在语音识别里做语言模型的融合成为一项技术改进重点。

火山语音团队逐个击破当前技术方案中存在的问题，面对经典ILME方法直接将context vector置0，在一些模型上效果不佳的问题，提出标签同步的上下文向量学习方法，把解码过程中每一步中间的隐状态H送到一个非常小、非常轻量FFN网络里，并让这个网络学会预测一个合理的C，再将合理的C送回，达到优化内部语言模型估计的目的。因为FFN网络可以做到非常小，所以对于整体的计算量也没有太明显的影响。

此外，面对融合垂直领域语言模型之后，对通用场景识别效果有负面影响的问题，火山语音团队提出自适应语言模型融合技术；面对引入外部和内部语言模型之后，推理计算量大幅增加，成本上涨的问题，火山语音团队提出内部&外部语言模型压缩方案。总结起来，端到端语音识别的语言模型融合技术方面，主要有三个维度的工作，分别是效果更好、更加实用和成本更低。

3、用户视听体验的优化实践

随着视听终端设备（IoT）和AI技术的发展，用户能体验到极致的视听体验可能性得到拓展，网易云音乐音视频实验室负责人刘华平带来了以“用户视听体验的优化实践”为主题的演讲，分享了通过解构音乐流媒体平台视听场景中端到端的视听体验链路环节，分析影响视听的各个要素并介绍保障高质量视听的相关实施技术细节。

在话题分享之前，刘华平为大家介绍了一些有关音质的概念，包括量化位数、声道、音质评估等。随后刘华平从数字音乐典型应用场景链路：流式点播场景切入，就内容源、播放引擎、后处理、观众侧这四个流式点播链路展开，为大家分享了其团队为提升音质在各环节所做的努力。其中，对内容源进行分析处理，包括真假无损检测、噪声检测、内容补全等，以确保源内容的质量；播放引擎最关键的目的是保证解码没有损失，同时支持一些HiFi的特性。在进行解码方案调整时，还会考虑到不同播放设备、不同听觉曲线对音质的影响。

此外，除了点播场景，刘华平还向大家介绍了云音乐里面的直播场景，主要包括主播侧、网络和观众侧等三个环节。

在主播侧，刘华平团队就声音采集、处理、编码等环节进行了优化。例如，针对高质量手机声音采集问题，刘华平提出四点优化方向：

（1）录制采集率选择：

手机硬件有默认采样率，这个采样率下工作是最优的，设置其他采样率的音频会从默认的采样率重采样到目标采样率，所以按实际需求，一般直接选择默认采样率。一般老机器可能是44100，但是新机器大部分是48000。

（2）录制接口选择：

通常需要选择最常用的录制接口，也是测试最多的接口，这样稳定性最好，兼容性也最好。且能保证录制的音频没有兼容性问题而导致的噪音或者左右声道声音完全不对的问题。Android 一般选择 Java的audiorecord， iOS一般选择audiounit。这两个目前兼容性最好的录制接口。

（3）录制线程优化：

主要有两点，主要的目的就是保证录制不受性能影响，不丢数据，保证数据完整性。

（4）录制参数选择：

OS录制设置的模式可以选择AVAudioSessionModeDefault,默认模式兼容所有category；

AVAudioSessionModeVoiceChat适用于语音聊天VoIP；

AVAudioSessionModeGameChat适用于游戏模式，不需要主动设置（若不想用GKVoiceChat但希望达到类似功能，可以使用AVAudioSessionModeVoiceChat）；

AVAudioSessionModeVideoRecording 适用于使用摄像头采集视频的应用。（完整分享视频请点击阅读原文查看）

4、透明视频在AR场景中的应用实践

在AR应用里，透明视频屏蔽了无关的背景，使用户更专注于核心内容，也能够更自然地和场景融合，提升沉浸感。Rokid 应用平台音视频负责人党予博便为大家带来了以“透明视频在AR场景中的应用实践”为主题的演讲，从AR应用需要什么样的视频体验、透明视频如何编码、透明视频的应用场景角度切入话题，分享了Rokid 应用平台应用透明视频的实践落地与相关成果。

在演讲中，党予博首先介绍了AR在工业上的应用，包括通过AR合影功能来进行空间建图等，从而总结出AR应用的三个特征：

（1）虚实融合：将虚拟的物体投入到真实的场景，增强对现实世界的理解；

（2）实时互动：增强的内容必须满足实时的交互；

（3）空间对齐：几何一致性、时间一致性、光照一致性。

以及AR应用视频的进化方向：

（1）如何和现实场景融合；

（2）如何实时响应用户操作；

（3）展示哪些内容，直播、云渲染、三维重建。

谈到透明视频的编码，党予博认为这涉及到alpha通道的编码、传输和储存问题。流行的编码器中，谷歌的Libvpx和苹果2009年推出的HEVC with alpha都支持透明视频的编码，两个编码器的性能特点存在差异，但党予博表示透明视频本身并不重要，重要的是需要探索那些适合用这个方式展现出来的内容或场景，例如：AR 三方录制、云端渲染推流、透明视频直播等应用场景。

总之，AR应用对视频的要求和其他的视频并不一样，AR应用需要融合需求，打造沉浸感，实现实时互动。AR应用的发展需要我们创建更多内容，不断突破，以此来丰富AR视频体验，赋能产业升级，商业落地。

以上是51CTO T·Club技术沙龙杭州站的大致分享内容，完整沙龙视频请点击阅读原文查看。