语音合成也遵循Scaling Law，太乙真人“原声放送”讲解论文

活久见，太乙真人给讲论文了噻！

咳咳，诸位道友且听我一番唠叨。

老道我闭关数日，所得一篇妙诀，便是此Llasa之法。此术上个月一出，海外仙长们无不瞠目结舌，直呼“HOLY SHIT”！

热度最高时，曾在huggingface上的“丹药热度榜”上排第六。

咳咳，书回正传。

如上引发围观的成果由香港科技大学等联合推出，它验证语音合成模型，也可以遵循Scaling Law，即扩展计算资源、语音合成效果可以更好。

它核心提出了一个语音合成的简单框架Llasa，该框架采用单层VQ编解码器和单个Transformer架构，和标准LLM保持一致。

研究团队提供了TTS模型（1B、3B、8B）、编解码器的checkpoint以及训练代码。

一气呵成TTS系统

近年来，基于Transformer的大型语言模型（LLM）在自然语言处理领域取得了显著进展，尤其是通过扩展模型规模和训练数据来提升性能。

然而，当前的TTS系统通常需要多阶段模型（例如在 LLM 后使用扩散模型），这使得在训练或推理阶段扩展计算资源变得复杂。

本研究提出了一种单阶段TTS框架Llasa，旨在简化这一过程，同时探索训练时间和推理时间扩展对语音合成的影响。

它基于Llama模型，采用单Transformer架构，结合了一个设计良好的语音分词器（tokenizer），能够将语音波形编码为离散的语音标记，并解码回高质量音频。

该框架的核心在于将语音和文本标记联合建模，通过预测下一个语音标记来生成语音。

关键组件：

研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。

实验表明，增加模型参数（从1B到8B）和训练数据量（从80k小时到250k小时）可以显著提高语音的自然度、韵律准确性和情感表达能力。

关键发现：

研究还探索了在推理阶段通过增加计算资源（例如使用语音理解模型作为验证器）来优化生成语音的质量。实验表明，推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。

关键方法：

语音分词器性能：提出的Xcodec2在多个指标上优于现有分词器，特别是在低比特率下的语音重建质量。
TTS 性能：Llasa在LibriSpeech、Seed-TTS-Eval和ESD数据集上达到了最先进的性能，尤其是在情感相似性、音色相似性和零样本学习能力方面。
推理时间扩展效果：通过PRM和ORM方法，推理时间扩展显著提高了语音合成的质量，尤其是在复杂任务中。