今日arXiv最热NLP大模型论文:浙大发布歌曲合成工具Prompt-Singer,歌手性别风格均可控!
本项目测试参考歌声,歌词“风吹来的砂冥冥在哭泣,难道早就预言了分离”:
3_gt
夕小瑶科技说
12秒
提示词“I want to listen to a song with a man voice.”生成的歌声:
转换男声
夕小瑶科技说
12秒
提示词“I'm in the mood for a song performed by a madam artist.”生成的歌声:
转换女声
夕小瑶科技说
12秒
引言:自然语言指令在歌声合成中的新突破
在数字音频技术的发展历程中,歌声合成(Singing Voice Synthesis, SVS)一直是一个充满挑战的领域。随着深度学习的兴起,SVS系统已经能够生成高保真度的歌声,为音乐创作和娱乐产业的发展提供了新的动力。然而,尽管现有的SVS方法在音频质量和自然度上取得了显著进步,它们通常缺乏对合成歌声风格属性的明确控制能力。这些风格属性包括说话者音色、声音范围和能量等。为了解决这一问题,研究者们开始探索使用自然语言指令作为风格提示,以期实现对合成歌声的精确控制。
自然语言指令的使用不仅可以实现对特定属性的精确控制,还可以简化用户交互,为非计算机专业用户如音乐家和视频创作者带来便利。然而,将自然语言风格提示应用于SVS面临着多个挑战,包括旋律与声音范围的解耦、文本表示的选择以及数据稀缺性等问题。本文将介绍一种新的SVS方法——Prompt-Singer,它是首个能够利用自然语言提示来控制歌手性别、声音范围和音量的SVS方法。
论文标题:
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt
论文链接:
https://arxiv.org/pdf/2403.11780.pdf
项目链接:
http://prompt-singer.github.io
Prompt-Singer模型简介:自然语言驱动的歌声合成方法
1. 模型的设计理念与目标
Prompt-Singer模型的设计理念是通过自然语言指令作为风格提示来控制合成歌声的风格属性,这不仅可以对特定属性进行精确控制,还可以简化用户交互,为非专业用户如音乐家和视频创作者带来便利。该模型采用基于解码器的Transformer架构,具有多尺度层次结构,并设计了一个旋律解耦的音高表示方法,使得在保持旋律准确性的同时,能够实现文本条件下的声音范围控制。
2. 解决既有SVS方法的局限性
现有的SVS方法虽然在音频质量和自然性方面取得了显著进展,但它们缺乏明确控制合成歌声风格属性的能力。Prompt-Singer模型通过自然语言提示来控制合成歌声的风格属性,如歌手音色、声音范围和能量,解决了现有方法的局限性。例如,现有的SVS数据中的音高注释与特定歌手在特定声音范围内的表现相绑定,这种耦合性质使得生成与提示相符且旋律准确的歌声变得具有挑战性。Prompt-Singer通过设计解耦的音高表示和引入语音数据来缓解数据稀缺问题,从而提高了模型对风格属性的控制能力和音频质量。
Prompt的设计与获取
Prompt(自然语言提示)是Prompt-Singer模型的核心要素,由于没有现成的数据集可用,因此研究者们利用了正常的SVS数据集,并设计了一种方法来为每个数据项生成提示句子。这个过程主要包括属性分类、关键词与模板生成、提示词组装三个阶段。
1. 属性分类根据音频特征将音频样本分配到预定义的性别、音量和音域类别中(下图)。
2. 关键词与模板生成利用大语言模型为每个类别生成相关关键词,并创建可插入关键词的提示句子模板(下图)。
3. 提示句子组装在训练时,结合样本的属性标签和预生成的关键词与模板,动态构建用于模型输入的自然语言提示(下图)。
自然语言提示合成歌声的挑战与解决方案
1. 旋律与声域的解耦难题
在现实生活中,不同的歌手可能会以不同的声域演唱同一首歌曲。例如,一位年长的男士和一个小女孩可能会在不同的声域内唱相同的歌。然而,SVS数据中的音高注释通常与特定歌手的特定声域绑定。这种耦合性质使得生成与提示相符的、具有一致声域和音色的歌声以及与给定音高音符对齐的准确旋律变得具有挑战性。为了解决这一问题,Prompt-Singer模型采用了一种解耦的音高表示方法,通过引入声域因子和独立于歌手的旋律序列,实现了在保持旋律准确性的同时对声域进行控制。
2. 文本表示的选择与优化
尽管一些研究尝试将文本表示与音乐、语音和一般音频概念联系起来,但目前还没有专门为歌唱风格描述定制的文本表示,优化提示表示的选择对于任务来说仍是未知的。Prompt-Singer模型探索了不同类型的文本编码器,包括BERT、FLAN-T5和CLAP,并对编码器进行了微调,以寻找最佳的文本表示。
3. 数据稀缺性的应对策略
由于需要细粒度的注释,现有的SVS数据集规模较小,通常只包含几小时或几十小时的歌唱数据。这不仅限制了数据的多样性,而且增加了学习自然语言描述与数据分布之间关联的难度。为了缓解数据稀缺性,Prompt-Singer模型引入了语音数据,通过使用与SVS数据相同格式的TTS数据,增加了训练数据的数量和多样性。
本项目测试参考歌声,歌词“快乐时你不用分心想起我,难过时请一定记得联络我”:
0_gt
夕小瑶科技说
12秒
提示词“Would you give me a song sung by a male vocalist?”生成的歌声:
0_male
夕小瑶科技说
12秒
提示词“I'm looking for a song with a woman singer.”生成的歌声:
0_female
夕小瑶科技说
12秒
Prompt-Singer模型架构详解
1. 多尺度Transformer的作用与结构
Prompt-Singer模型的整体架构如下图所示。它主要由两个子模块组成:1)多尺度Transformer,它根据自然语言提示、带有时长的歌词和音高信息的输入生成离散的声学单元;2)单元声码器(Unit Vocoder),它将生成的声学单元映射到音频波形上。
多尺度Transformer的层次结构,由全局和局部Transformer组成(下图),它们都是基于解码器的Transformer。全局Transformer负责建模不同帧之间的关联,而局部Transformer则在帧内自回归预测不同码本的声学单元。这种多尺度结构有助于模型处理长序列,并在不同模态之间建立内在关系。
2. 声音表示与文本表示的处理
在声音表示方面,Prompt-Singer模型使用SoundStream生成的离散声学单元作为Transformer的预测目标。文本输入包括两部分:歌词和自然语言提示。歌词通过查找表嵌入并输入到Transformer中,而自然语言提示则使用冻结参数的文本编码器提取语义表示,并通过线性层映射其维度以适应Transformer。
3. 解耦音高表示的创新设计
Prompt-Singer模型基于等温定律理论,将F0分解为两个组成部分:平均F0值(表示声域)和调整后的F0序列(表示旋律信息)。这种简单而有效的表示方法创建了信息瓶颈,迫使模型从调整后的F0序列和平均F0因子中提取旋律和声域信息。
4. 利用语音数据缓解数据稀缺
为了缓解数据稀缺性,模型结合了TTS数据进行训练,以增加训练数据的数量和多样性。此外,模型还探索了在低资源情况下用语音数据替代歌唱数据的可行性,并在不同量级的低资源SVS数据与大量TTS数据的组合下评估了模型性能。
实验设置与评价指标:歌声合成模型的多数据集融合与性能评估
1. 数据集的选择与组合
为了控制合成歌声的风格属性,我们选择了M4Singer、Opencpop、Opensinger和PopCS四个SVS数据集,共计127小时的多歌手歌唱数据。同时,我们还利用了AISHELL-3、Biaobei、THCHS-30和DidiSpeech等四个普通话TTS语料库,总计约179小时的语音数据(下表)。这些数据集的选择旨在增加训练数据的数量和多样性,从而提高模型的泛化能力和风格控制的准确性。
2. 模型配置与训练细节
我们采用了基于解码器的多尺度Transformer架构,并设计了一种音高解耦表示法,这使得模型在保持旋律准确性的同时,能够通过文本条件控制声音范围。如下表所示,全局Transformer有20层,参数量为320M;局部Transformer有6层,参数量为100M。我们使用SoundStream模型生成的离散声学单元作为Transformer的预测目标,并通过一个基于GAN的单元声码器将生成的声学单元映射到高保真的音频波形。
3. 客观与主观评价指标的应用
我们采用了客观和主观的评价指标来评估模型的控制能力和歌声质量。客观指标包括每个属性的准确性百分比,其中性别分类器用于性别属性的评估,振幅RMS和平均F0用于评估音量和音域。我们还计算了R-FFE(调整音域后的F0帧误差)来衡量旋律准确性。对于主观指标,我们通过亚马逊Mechanical Turk进行人群外包评估,评估者需要根据1-5的Likert量表对歌声质量和与提示的相关性进行评分,并报告平均意见得分(MOS)和相关性(RMOS)(下面两图分别是MOS和RMOS的评分界面)。通过这些综合评价,我们可以全面了解模型的性能表现。
实验结果与分析:文本编码与语音数据在歌声合成模型中的作用与表现
1. 不同文本表示对控制能力的影响
实验结果表明,经过微调的文本编码器在控制准确性上有显著提高,尤其是FLAN-T5 large和BERT-large模型(下表)。这表明将文本表示与更简单的分布对齐有助于模型学习提示和歌唱风格之间的相关性。此外,不同类型的文本编码器在不同属性的控制能力上表现不同,这可能与模型的预训练方法和数据有关。
2. 语音数据在低资源情景下的作用
如下表所示,在低资源情景下,引入语音数据可以显著提高控制准确性和生成质量,但对旋律准确性有轻微的负面影响。随着SVS数据量的减少,歌声质量和旋律准确性急剧下降,而音量和音域的准确性变化相对平缓。这表明,尽管语音数据有助于提高控制准确性和音频质量,但仍然需要足够量的歌唱数据来确保合成质量和旋律准确性。
3. 模型在多属性提示下的表现
如下表所示,我们的模型在单属性和多属性提示下都表现出了良好的性能。随着属性数量的增加,准确性和与提示的相关性有轻微下降,这表明多属性条件下声学风格的条件分布更复杂,模型化难度增加。尽管如此,我们的模型在处理单个和多个属性的提示时仍然展现出了良好的性能。
讨论与总结:合成歌声的创新与挑战
1. 模型的优势与局限性
Prompt-Singer模型通过自然语言提示来控制合成歌声的风格,这种方法在控制特定属性方面具有明显的优势,同时简化了用户交互,方便非专业用户使用。模型采用基于解码器的Transformer架构,并设计了一种旋律与音域解耦的音高表示,使得在保持旋律准确性的同时,能够通过文本条件控制音域。
模型的局限性在于:面临解耦旋律与音域、选择文本表示、数据稀缺等挑战;因使用大语言模型和自回归生成导致高计算成本和推理延迟;提示文本的生成流程简单且僵化,可能产生语法错误和表达偏差。
2. 对未来研究方向的展望
未来的研究可以在多个方向上进行拓展。首先,可以引入更多的风格属性,如情感、节奏和更详细的歌手信息,以进一步提高合成歌声的多样性和个性化。其次,可以探索更高效的模型架构和生成范式,以减少计算开销并提高推理效率。此外,改进提示文本的生成流程,提高其准确性和表达力,也是未来研究的一个重要方向。
本文转载自夕小瑶科技说,作者:Tscom