检索速度提高八倍，字节跳动发布最新音乐检索系统ByteCover2-51CTO.COM

近期，字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别（CSI）这一音乐信息检索（MIR）领域的一项重要任务，通过表征学习方法让其具备提取音乐核心特征的能力，并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性，检索速度提高 8 倍。经 Da-Tacos 数据集上的评估，准确率远超其他方案的 SoTA 性能。

ByteCover2: 为高效翻唱识别系统设计的隐式嵌入降维方法

《BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION》

方法详述：翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性，从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时，有三种音乐变化通常会被重点考虑，即音乐调式偏移、音乐结构变化和音乐节奏变化。此外，抖音平台上每日新增千万量级的用户投稿，如何快速应对巨量查询需求，提高识别系统的整体吞吐量并同时确保识别准确性，也是亟待解决的问题；另外在设计特征时，如何在保障其他性质的前提下尽可能减小特征大小，从而减少存储空间，降低系统复杂度和成本，也是字节跳动内部开发翻唱识别时面临的挑战。

在 ByteCover 系统中，团队通过多任务学习范式联合 ResNet-IBN 模型，做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题，还提出了 PCA-FC 模块，实践证明该模块在保证 ByteCover2 模型性能不变甚至提高的前提下可将向量尺寸压缩至八分之一。

Bytecover 模型结构与训练流程

多任务学习提高音乐检索能力：通常在翻唱识别领域存在两种训练范式，分别是多分类学习和度量学习。前者将每个曲目视为一个独立类别，在特征层后加上全连接层，并通过交叉熵等分类损失对模型进行训练，训练完成后则去掉全连接层，使用特征层的输出作为歌曲的表征；后者则直接在特征层之上，使用 triplet loss 等度量学习损失训练网络。

总体来看两种训练范式各有优劣，团队通过实验发现，分类损失往往能提高模型对同曲目不同风格版本的检索能力，细致设计的度量学习损失则能提高翻唱网络对相似风格不同曲目音乐的区分能力。因此 ByteCover 对这两种学习范式进行了结合，并通过引入 BNNeck 模块，提高了两种损失的兼容性。

ResNet 网络与 IBN 正则化方法（ResNet & Instance-Batch Normalization）：为了简化音乐特征提取的流程，加快特征提取速度，团队使用 CQT 频谱图作为模型的输入，而不使用在同期其他翻唱识别方法中常用的 cremaPCP 或其他更为复杂的特征，但此设计会天然地在输入特征层面上损害模型对音频频移的鲁棒性。

所以在选择卷积神经网络做了音乐表征提取网络，希望能利用卷积网络的平移不变性来实现模型对频移的不变性。实验证明，CQT 谱 + 普通 ResNet 的组合就已经在效率和性能上超过 cremaPCP+CNN 的设计。

深入探究，团队引入了 Instance-Batch Normalization 来从网络隐表示的层面进一步学习和风格无关的音乐特征，即特征图上不同通道间的均值方差等统计量与输入的风格化特征相关。IN 通过对特征图的通道维度做的归一化处理，一定程度上实现了在隐藏表征层面上去除风格化信息，从而提高翻唱识别模型对音色变化的鲁棒性。

特征降维模块（PCA-FC）：通过测算，团队发现工业级别的翻唱系统大部分耗时集中在特征检索阶段，而这一阶段的时间消耗基本和曲库的大小以及特征向量的尺寸线性相关。曲库中歌曲的数目会随着业务的增长而不断增加，因此降低特征向量尺寸成为优化检索系统整体耗时的必由之路，而同期其他翻唱向量特征降维的工作往往采用一个全连接层来将高维向量投影到维度更低的空间。

实验结果发现，单纯使用全连接层进行降维会明显降低系统的检索能力，团队认为这种现象不仅因为更小的尺寸限制了向量的表征能力，性能的损失也来自于随机初始化的全连接层对特征各向同性的破坏。随后对数据可视化之后我们可以发现，降维后特征分布在一个锥形空间，表现出明显的各向异性，此种性质不利于使用余弦距离为度量的检索。

因此团队尝试使用 PCA 对特征向量进行降维操作并随后用 PCA 的变换矩阵初始化一个全连接层，把该层和特征提取网络连接进来并联合训练，并将模块称作 PCA-FC。实验结果显示， PCA FC 能显著提升降维模型的检索性能，在保持检索性能不变的前提下向量尺寸可以被压缩八倍。

结果展示：一直以来 Da-Tacos 作为用来评估翻唱识别的基准测试数据集被使用，在该数据集上采用 1536 维的 ByteCover2 模型取得了远超其他方案的 SoTA 性能，全类平均正确率指标 (mAP) 达到 79.1%；而 ByteCover 系列以外的最好方法 Re-MOVE 的该项指标只有 52.5%，更加值得被提及的一点，128 维的 ByteCover2 模型甚至超过了 2048 维的 ByteCover1 和 Re-MOVE 方法。

对比结果

此外，ByteCover1 系统还参加了 2020 国际音频检索评测大赛(MIREX)，过程中大幅刷新了翻唱识别赛道历年最好记录，mAP 指标达到 84%，是同年参加该竞赛的其他方案性能的 14 倍。

除了 ByteCover2，此次，字节跳动火山语音团队还有多篇论文被 ICASSP 2022 收录，内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向，下面进行简单介绍。

智能音乐

HTS-AT：一种用于声音分类和检测的分层标记语义音频 Transformer 模型

《HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION》

文章主要介绍了 HTS-AT，这是一种新颖的基于 Transformer 的声音事件检测模型。针对音频任务的特性，该结构能有效提高音频频谱信息在深度 Transformer 网络中的流动效率，提高了模型对声音事件的判别能力，并且通过降低输出特征图的大小，显著降低了模型地计算量与内存消耗。此外 HTS-AT 还引入了 Token Semantic 模块，使模型具备预测声音时间起始与终止点的能力，并且无需使用额外有标注数据进行训练。

综合以上技术，HTS-AT 在标准数据集 AudioSet 上的 mAP 指标达到 0.471, 是当前的该数据集上的最佳水平，并且参数与计算量都小于之前的最佳方法；另外在声音事件定位任务上，HTS-AT 无需额外标注数据，即达到有监督定位模型的性能水平。

HTS-AT 模型的结构

在音乐识别场景中，声音事件检测模型会挑选包含音乐的片段送入音乐检索系统，以此来提高整个系统的效率与准确性。

S3T: 针对音乐分类基于 Swin Transformer 的自监督预训练

《S3T: SELF-SUPERVISED PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION》

该篇文章提出了一种创新的、基于层级式 Transformer 的自监督音乐预训练算法 S3T。S3T 使用了大规模音乐预训练配合少量标签数据微调的范式，充分利用大量无标签的音乐数据，通过挖掘时域和频域的信息，学习具有较强泛化性的通用音乐表征。S3T 在多个下游任务上均取得很好效果，特别是仅使用 10% 的标签数据进行微调效果便能超过使用以往全量标签数据训练的模型，大幅降低了人工数据标注的成本。

S3T 模型结构与训练流程

音乐自监督学习无需大量人工标签便可利用大量音乐数据充分挖掘其自身的表征，且拥有较强的通用性。本文提出的音乐表征自监督学习，为音乐理解构筑了基础。S3T 目前已经应用在音乐标签、音乐指纹等场景，微调后的 S3T 可以为音乐打上风格、语种、情绪等标签，可靠的音乐标签可以进一步服务音乐推荐系统，使其精准地向来自不同地区的用户推送合适的音乐。

音频合成

基于服装风格迁移实现场景感知下的人物视频生成

《Towards Using Clothes Style Transfer for Scenario-aware Person Video Generation》

该方向致力于解决视频中人物个性化穿搭和背景场景自由的选择问题。创新上，设计了多个解耦 encoder 学习人物不同的属性（身份，衣服和姿态），通过共享 decoder 融合多层面信息。

不同于图片任务，视频需要学习帧之间的变化，所以设计了帧间判别器（Inner-frame Discriminator）大幅度提升了稳定性。具体来说，在模型生成的结果上应用掩码（mask），人物可切换到任意场景上。工作在公开数据集 TEDXPeople，相对 baseline 系统（CVPR2021）视频中衣服个性化的多项客观指标均有显著改善，可以达到 SOTA 效果：SSIM +0.047, PSNR +4.6, FID(越小越好) -0.4, FVD(越小越好) -0.543。

场景感知的服装风格迁移模型框架

在数字人多模态生成的场景和业务中，数字人主播衣服的个性化穿搭和场景自由的选择，为用户提供了自主可控的个性化能力，可大幅增加数字人生态的多样性。

音频理解

基于细粒度语境知识选择的端到端（语境）语音识别提升方法

《IMPROVING END-TO-END CONTEXTUAL SPEECH RECOGNITION WITH FINE-GRAINED CONTEXTUAL KNOWLEDGE SELECTION》

该工作在一种被称为协同解码（Collaborative Decoding, ColDec）的语音识别定制化 / 个性化方法的基础上，提出了细粒度语境知识选择机制（Fine-grained Contextual Knowledge Selection），来进一步增强该方法在大热词列表和较多干扰热词情境下的语音识别定制化性能。在先前工作中，一种被称为协同解码（Collaborative Decoding）的语音识别定制化技术有效地提升了定制化识别性能。

本文针对其在大热词列表和较多干扰热词情境下的性能衰减问题，提出了细粒度语境知识选择机制，进一步增强了协同解码技术在定制化场景下的能力。在公开数据集 Librispeech 上，本文方法在基础 CIF 语音识别模型的 test-clean 2.12% 的 WER 基础上，进一步为 WER 带来了约 5% 的相对下降；在内部 16w 小时工业级 ASR 数据集训练的语音识别模型的基础上，本文方法在真实会议测试集上为 CER 带来了最高约 16% 的相对下降。

应用场景方面，该方法可被用于语音识别定制化，例如在智能语音助手和在线视频会议等应用场景中，许多同背景相关的关键短语、个性化信息、热词等内容都较难识别。此外在移动端智能语音助手的应用场景下，联系人列表中的联系人姓名，频繁出没的地点位置等个性化信息；在线会议场景下，参会人员的姓名，会议主题相关的专业术语等，针对性地提升这些定制化和个性化文本内容的语音识别性能，在实际应用场景中有重要意义。

非自回归 Transformer 自动语音识别的最小词误差训练

《MINIMUM WORD ERROR TRAINING FOR NON-AUTOREGRESSIVE TRANSFORMER-BASED CODE-SWITCHING ASR》

这篇论文由字节跳动和南洋理工大学（NTU）共同完成。近年来由于基于非自回归 Transformer（NAT）的自动语音识别（ASR）框架的以下优点，分别是 “当前的输出与历史的输出无关” 以及“其推理速度非常快”，其在业界日益受到重视。

对此，团队对于其在语码转换语音识别任务（CSSR）上的性能有所期待。另外据不完全了解，似乎并没有出现将最小词错率（MWER）准则应用于 NAT 模型的先例，所以该工作在一定程度上填补了此项空白，且在 SEAME 语码转换数据集上得到了验证。

本文的贡献主要在以下两个方面：1、我们在语码转换的场景下，提出了多种 CTC 掩蔽的方式训练 NAT 模型；2、我们在 MWER 训练准则下，提出了多种 N-best 假设的生成方法。

发现及结论分别是：1、无论在单语言还是跨语言的场景下，上下文相关的场景信息非常重要，而 NAT 没有历史信息，NAT 模型相比自回归的 Transformer（AT）得到了一致性更差的结果；2、严重受限于 N-best 假设的生成方法，在 NAT 模型上进行基于 N-best 的 MWER 训练只得到了细微的提升，所以如何生成更丰富的 N-best 有待进一步研究。

使用梯度掩码改进端到端语音识别的伪标签训练

《IMPROVING PSEUDO-LABEL TRAINING FOR END-TO-END SPEECH RECOGNITION USING GRADIENT MASK》

一直以来，打伪标签在自监督学习中都是最重要的方法，最近在语音识别领域也展现出极好的效果，但是自监督学习对伪标签的质量极其敏感，主要是因为伪标签中的错误或者噪声常常会导致模型训练的不稳定并最终收敛到非最佳的状态，特别是对于 e2e 的模型比如 RNNT。

对此，该论文提出了 Gradient-mask 的方法来应对以上问题。此方法在训练过程中抹去了 encoder 中可见 input 的对应梯度，从而鼓励模型从不可见的部分进行推测，并且能有效降低模型对 corrupted label 的 overfit。

应用场景方面，此方法可以有效应对模型 overfit 到 corrupted label 并提升模型训练的效果，例如半监督自学习中，因为 domain 不 match 等原因导致 pseudo-label 质量过差，以及已知一部分数据标注质量过差的问题。

ICASSP 2022 多方会议转录挑战赛的火山语音系统

《THE VOLCSPEECH SYSTEM FOR THE ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE》

会议场景是语音识别和说话人日志技术应用中最有价值和挑战的场景之一，会议场景包含了丰富的说话风格和复杂的声学条件，需要考虑重叠语音、未知数量说话人、远场信号、噪音、混响等挑战。

ICASSP 2022 多通道多方会议转录挑战(M2MeT)，提供了 120 小时真实记录的中文会议数据，包含 8 通道麦克风远场数据和对应耳机麦克风采集的近场数据。M2MeT 挑战赛包括多说话人语音识别和说话人日志两个赛道，团队在限定训练数据子赛道上分别获得第二名和第四名。

针对多说话人语音识别赛道，团队提出一种神经网络前端模块和语音识别模块端到端联合训练的方法，输入 8 通道音频输出多说话人识别文本，除此之外加入了丰富的 8 通道数据仿真，在测试集上和官方基线相比 CER 相对下降 32.6%。

在说话人日志赛道中，结合前端信号处理技术，团队提出一种融合声源定位信息的说话人日志方法，提高识别准确率；同时针对竞赛数据中存在的说话人重叠问题，提出一种多通道融合算法，减少重叠部分的说话人漏检，最后采用修改的 DOVER-Lap 算法对多套系统进行融合，最终在测试集上的 DER（说话人日志错误率）相比官方基线相对下降 53.7%。该技术可以被用在会议室多通道麦克风场景下，生成包含说话人信息的多说话人语音转录结果。

超脑方向

基于稀疏共享子网络的跨语言语音表征学习

《LANGUAGE ADAPTIVE CROSS-LINGUAL SPEECH REPRESENTATION LEARNING WITH SPARSE SHARING SUB-NETWORKS》

该工作提出了一种基于稀疏共享结构的多语言语音表征学习方法，即从模型中划分出多个稀疏子网络来分别对不同语言进行建模，进而实现语言自适应训练，每个语言的子网络都通过裁剪不重要的参数进行提取。

基于此，文中探索了一种基于彩票假设 (Lottery Ticket Hypothesis) 的提取方法以及另一种基于一阶泰勒展开的快速提取方法。在下游多语言语音识别任务上，所提出的方法可以大幅降低基线 XLSR 模型的错误率，并超过 Gating Network、Adapter 等其他自适应训练方法。

基于稀疏共享结构的多语言预训练流程

在国际化背景下，为了满足不同语言的字幕、审核和翻译等需求，需要针对各个语言去搭建语音识别系统。多语言语音识别的目标是用单一模型去支持多个语言的语音识别，可以有效的减轻部署和维护的成本，并能在一些低资源场景下提升识别效果，具有非常重要的意义。