TAVGBench: 文本生成语音-视频最新基准

发布于 2024-4-25 09:54
浏览
0收藏

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

链接地址:https://arxiv.org/pdf/2404.14381
代码链接:https://github.com/OpenNLPLab/TAVGBench


文本到可听视频生成(TAVG)任务涉及根据文本描述生成带有配套音频的视频。要实现这一目标,需要巧妙地对齐音频和视频元素。为了支持这一领域的研究,本文开发了一个全面的文本到可听视频生成基准(TAVGBench),其中包含超过170万个片段,总时长为11800小时。


本文提出了一个自动标注pipeline,以确保每个可听视频都有关于其音频和视频内容的详细描述。还引入了音频-视觉和谐分数(AVHScore),以提供生成的音频和视频模态之间对齐的定量度量。


此外,本文提出了一个名为TAVDiffusion的TAVG基线模型,该模型使用双流潜在扩散模型为这一领域的进一步研究提供了一个基本起点。通过采用交叉注意力和对比学习来实现音频和视频的对齐。通过在TAVGBench上进行广泛的实验和评估,展示了提出的模型在传统指标和提出的指标下的有效性。

介绍

文本到视频生成任务通过整合计算机视觉和自然语言处理得到了提升。这一任务将文本描述转化为视觉表现形式,丰富了多媒体体验,并提高了视觉障碍人士的可访问性。然而,虽然现有方法在将文本描述转化为视觉内容方面表现出色,但将同步音频整合到这些视频中的努力仍然大部分未被探索。这一差距突显了在多模态生成领域中的一个基本必要性——即通过文本描述单独引导生成带有听觉组件的视频内容。


在本文中,考虑到当前研究存在明显差距,引入了一个新任务:文本到可听视频生成(TAVG)。这一任务标志着一个重大变革,要求模型不仅要生成视觉内容,还要同时创建音频。与典型的文本到视频任务只关注单模态视频生成不同,TAVG要求同时生成音频和视频,由书面描述引导。通过承担这一任务,推动多模态生成的边界,使得仅使用文本提示就能够创建沉浸式的视听体验成为可能。任务定义如下图1所示。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

要成功实现TAVG,一个包含良好对齐的音频和视频组件的全面数据集至关重要。然而,发现目前没有成熟的基准可用于支持训练和测试,主要是因为缺乏这样一个大规模的数据集。


在TAVG的基础上提出建立一个文本到可听视频生成基准(TAVGBench),允许以监督方式训练模型。TAVGBench的核心是一个精心选择的数据集,包括多样化的文本描述及其对应的音频-视觉对。这个数据集有助于全面评估和比较各种方法。数据集包含超过170万个来源于YouTube视频的音频-视觉对。


作者设计了一个粗到细的pipeline来自动实现数据集中的音频-视觉对的文本标注。具体来说,分别利用BLIP2WavCaps来描述视频和音频组件。此外,还利用ChatGPT来重新表述和整合来自两个模态的标注,从而使得标注pipeline在理解上下文和生成类似人类的文本描述方面表现出色。为了评估生成的音频和视频之间的对齐程度,引入了一个新的度量标准,用于衡量生成结果的和谐程度,称为音频-视觉和谐分数(AVHScore)。这个度量标准在多模态、高维语义空间中量化了视频和音频之间的对齐程度。


基于本文提出的TAVGBench,提出了一个名为文本到可听视频扩散(TAVDiffusion)的基线方法。这个方法基于潜在扩散模型,代表了从文本生成音频和视频的初步尝试。鉴于多模态对齐的要求,提出了两种策略来实现来自特征交互和特征约束的多模态潜在变量的对齐。通过使用传统指标和本文提出的指标对基线模型进行了广泛的评估,并展示了本文的方法在TAVG任务中的有效性。


总的来说,主要贡献包括:

  • 引入了TAVG任务,通过将同步音频与视觉内容整合,扩展了多模态生成,解决了一个关键的研究空白。
  • 提出了TAVGBench,这是一个大规模基准数据集,具有自动文本描述标注pipeline和新颖的音频-视觉和谐分数(AVHScore),极大地促进了TAVG任务。
  • 提出了文本到可听视频扩散(TAVDiffusion)模型作为基线方法,基于潜在扩散模型构建。

相关工作

文本到视频生成任务是一个具有挑战性且被广泛研究的任务。先前的研究利用了各种生成模型,如GANs和自回归模型。近年来,扩散模型在内容生成(即文本到图像生成)领域的出现,催生了文本到视频生成研究的重大进展。Imagen-Video、Make-A-Video和show-1提出了深层级时空上采样器的深层级串联,用于视频生成,同时在图像和视频数据集上联合训练模型。


随后大部分工作基于潜在扩散模型,利用预训练的2D图像的UNet权重。VideoLDM采用潜在扩散模型,通过微调预训练的潜在图像生成器和解码器来确保生成视频的时间连贯性。LAVIE将旋转位置编码(RoPE)整合到网络中,捕获视频帧之间的时间关系。


AnimateDiff采用一种策略,冻结预训练的潜在图像生成器,同时专门训练新插入的运动建模模块。SimDA提出了一种高效的时间适配器,帮助训练好的2D扩散模型提取时间信息。这些进展为高效的多模态扩散pipeline奠定了基础。


文本到音频生成任务类似于视频生成任务,也是从GANs和自回归模型到扩散模型的演变。DiffSound提出了一个VQVAE模型和一种基于掩码的文本生成策略,以解决音频-文本配对数据稀缺的问题,尽管由于缺乏详细的文本信息可能会限制其性能。AudioGen采用自回归框架,利用基于Transformer的解码器直接从波形中生成token。它应用数据增强,并将语言描述简化为标签,牺牲了详细的时间和空间信息。AudioLDM将潜在扩散模型从视觉生成领域转移到了文本到音频生成领域。它通过CLAP嵌入来编码文本信息以实现引导。Tango遵循LDM流程,将CLAP替换为T5以获得更富表现力的文本embedding。


除了文本引导的内容生成之外,近年来,音频和视频的相互或联合生成逐渐成为研究的焦点。典型地,音频和视频模态作为彼此的条件信号,以实现相互生成,即从视频生成音频或从音频生成视频。在前者方面,SpecVQGAN、CondFoleyGen和Diff-Foley分别利用VQGAN、自回归Transformer和扩散模型实现了从视频生成音频。关于后者,soundini利用音频作为控制信号来指导视频扩散模型进行视频编辑。Sung等人利用对比学习将从音频生成的视频内容约束为更接近原始音频的生成视频内容。TempoTokens引入了一个AudioMapper,它使用由预训练音频编码器编码的token作为条件,以在扩散框架内实现从音频到视频的生成。


基于两种模态的相互生成,一些研究探索了可听视频内容的联合生成。MM-diffusion采用了一个扩散UNet,同时接收来自两种模态的输入和输出,首次实现了两种模态的联合生成。朱等人采用视频扩散架构生成视频,然后检索音频,提出了一种替代的联合生成方法。兴等人提出在推理过程中通过优化操作来增强现有扩散模型,以实现音频视频的生成并保持对齐。


我们基准的独特之处在于,尽管对多模态生成任务进行了广泛探索,但目前还缺乏专门用于文本到可听视频生成任务的综合基准和大规模数据集。针对这一差距,我们的解决方案提供了用于训练和评估的数据集,以及用于评估多模态对齐的指标。此外,我们还提供了一个简单的基线方法。

TAVGBENCH

数据集统计

TAVG任务涉及根据输入文本提示生成可听视频。为了支持这一任务,我们引入了一个名为TAVGBench的基准。我们的数据集来自AudioSet,包括来自YouTube的200万对齐的音频-视频对。在排除无效视频后,我们获得了170万条原始数据。每个视频样本的持续时间为10秒,贡献了数据集中总共11800小时的视频时长。为了全面了解我们数据集的规模和特征,我们将其与其他相关任务的数据集进行了比较。表1对TAVGBench与这些数据集进行了大小、来源和其他相关属性的比较分析。


从下表1中可以看出,AudioCaps、MSR-VTT和WebVid只描述了单模态的内容(仅音频或视频模态)。虽然FAVDBench描述了两种模态,但数据集的规模有限。我们提出的TAVGBench考虑了音频和视频两种模态的描述,同时确保了足够大的数据集规模。此外,WebVid中的视频带有水印,这在实际场景中大大限制了它们的应用。这种比较突显了TAVGBench数据集的规模和独特特性,强调了它在推动可听视频生成研究方面的潜力。此外,TAVGBench表现出文本描述的平衡分布,每个视频标注平均有2.32个句子和49.98个单词,为每个片段提供了丰富的上下文信息。这些比较统计突显了TAVGBench数据集的广泛规模、多模态特性和语言丰富性,使其成为推动我们TAVG任务研究的宝贵资源。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

标注细节

鉴于AudioSet对其视频和音频内容均缺乏详细的文本标注,我们实施了一个由粗到细的pipeline来自动生成文本描述。完整的pipeline如下图2所示。首先,我们分别使用两种先进的方法,即BLIP2用于视频描述和WavCaps用于音频描述,对视频和音频组件进行标注。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

然而,尽管这些方法在捕捉视频和音频内容的精髓方面很有效,但生成的标注通常缺乏连贯性和上下文。为了解决这一限制并提高标注的整体质量,我们引入了一个通过ChatGPT进行精炼的步骤,ChatGPT是一个功能强大的语言模型,能够重新表述和丰富文本输入。

在精炼阶段,利用ChatGPT重新表述和增强BLIP2和WavCaps生成的标注。通过将初始标注输入ChatGPT模型,我们获得了修订后的标注,这些标注具有增强的连贯性、上下文相关性和语言精炼度。最初,我们分别重新表述视频和音频描述,以纠正语法错误并增强描述性内容。随后,我们利用ChatGPT将两种模态的描述合并成一个统一、连贯的句子。这个迭代过程不仅增强了标注的可读性,还确保了整个标注语料库的一致性和准确性。


将ChatGPT纳入我们的pipeline显著增强了检测视频和音频内容中微妙细微之处和语义复杂性的能力。因此,我们的标注pipeline在理解上下文和生成类似人类的文本描述方面表现出色,从而促进了更精确地捕捉底层内容精髓的标注的创建。

评估指标

现有的视频(FVD、KVD)和音频(FAD)生成的指标主要侧重于分别评估每种模态的质量。然而,对于TAVG任务,我们不仅需要生成高质量的音频和视频,还需要确保这两种模态的准确同步。为了解决评估生成的音频和视频之间的对齐程度的必要性,我们提出了一种称为音频-视觉和谐分数(AVHScore)的新指标。该指标通过计算提取的音频-视频特征的乘积来量化音频-视频对的对齐程度。我们使用了一个强大的特征提取器(ImageBind)将视频帧和音频投影到一个统一的特征空间中。形式上,我们定义AVHScore 𝑆AVH 如下:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

其中,cos表示余弦相似度。Ev和Ea 分别代表ImageBind模型中的视觉编码器和音频编码器。𝑁 表示视频帧的数量,我们计算每个视频帧与相应音频输入之间的相似度,并对所有帧的结果进行平均。

一个基准方法

我们提出了一种新的文本到可听视频生成(TAVG)任务的基准方法,如图4所示,名为TAVDiffusion。整个网络结构基于潜在扩散模型。

初步:潜在扩散模型

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

这里

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

训练通过最小化对负对数似然的变分界限来进行。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

因此,𝜃 的最终训练目标是一个噪声估计损失,带有条件变量 c,可以表述为:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVDiffusion

根据前面定义的潜在扩散模型的正向和反向过程,进一步提出了基准的双流扩散pipeline,用于联合文本到可听视频的扩散。


多模态潜在编码器。使用两个独立的潜在自动编码器来处理我们的多模态输入,进行潜在空间的编码和解码。这个过程可以表述为:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区


多模态扩散过程。对于音频和视频模态的输入,我们使用两个流结构来对潜在变量Za和Zv执行正向和反向扩散过程,如下图4所示。与普通的扩散不同,普通扩散是生成单一模态,我们的目标是在单一扩散过程中同时恢复两种一致的模态(即音频和视频)。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

我们认为每种模态的反向和正向过程是独立的,因为它们具有不同的分布。以音频潜在变量  为例,其在时间步 𝑡 的反向过程定义为:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

时间步 𝑡 的正向过程定义如下:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

总结上述公式,多模态扩散损失的最终定义是:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

任务中,条件变量 c 表示输入的文本embeddings,使用CLIP文本编码器及其分词器来获取文本嵌入。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

多模态交互

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

多模态对齐

特征交互机制并没有显式地强制执行多模态特征的对齐。因此,集成一个能够保证音频和视觉模态特征表示对齐的损失函数至关重要。为了解决这个问题,我们提出了一种基于对比学习的显式音频-视觉对齐策略(EAS)。


TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区


对比学习的瓶颈在于设计具有有效相似度度量的正/负样本对,即我们情况下的 s(·,·)。使用具有 softmax 激活的线性投影 𝑙𝛽 (·) 来根据特定模态的输入计算相似度权重,不同信息包含在不同的tokens中。给定两种模态 (𝑎,𝑣),加权相似度函数 s(·,·) 为:

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

目标函数

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

其中,𝜆 表示训练过程中的平衡权重。根据经验,损失权重被设置为 𝜆 =0.1。

实验结果

实现细节

数据集。在TAVGBench 数据集上训练模型。在评估阶段,我们从 TAVGBench 的评估子集中选择了 3,000 个样本。此外,还评估了我们模型在 FAVDBench的测试子集上的性能,该子集包含 1,000 个样本。FAVDBench 提供了更细粒度的可听视频描述,能够生成更详细的视频。重要的是,由于 FAVDBench 的数据在训练阶段未被使用,我们可以根据模型在 FAVDBench 上的性能评估其零样本能力。


TAVGBench: 文本生成语音-视频最新基准-AI.x社区


评估指标。 首先分别测量生成的音频和视频的质量。为了评估视频,采用 Frechet Video Distance (FVD)、Kernel Video Distance (KVD)和 CLIPSIM指标。FVD 和 KVD 使用在 Kinetics-400 数据集上预训练的 I3D分类器。对于音频评估,采用 FAD 来衡量生成音频与参考音频之间的距离。还使用我们提出的 AVHScore 来衡量生成结果的对齐程度。对于所有评估,我们为每个文本生成一个随机样本,没有任何自动排序。

主要结果

比较方法设置。据我们所知,目前没有现有的可用方法直接与我们提出的任务相关,供比较。因此,我们结合现有的相关模型,设计了两阶段方法进行比较。


  • (1) AnimateDiff + AudioLDM: 输入文本,并利用这两个模型分别生成音频和视频。
  • (2) AnimateDiff + Diff-Foley: 输入文本,使用 AnimateDiff 生成视频,然后利用 Diff-Foley 根据视频生成音频。
  • (3) AudioLDM + TempoToken: 输入文本,使用 AudioLDM 生成音频,然后利用 TempoToken 根据音频生成视频。

定量比较。在下表 2 中将本文的方法与 TAVGBench 和 FAVDBench 数据集的比较方法进行了定量结果展示。结果表明,TAVDiffusion 模型在视频和音频质量指标方面优于所有比较方法。具体来说,FVD 和 KVD 的得分分别为 776.25 和 65.53,而 FAD 的得分为 1.46。这表明我们生成的可听视频与原始内容之间存在显著的一致性,质量更高。这些结果突出显示了我们的模型生成的视频与原始内容之间的显著一致性,表明了其优越的质量。此外,我们的模型达到了显著的 CLIPSIM 分数 (24.18),加强了生成视频与相关提示之间的语义连贯性。值得注意的是,我们的模型和比较模型在训练阶段都没有接触过 FAVDBench 数据,因此在该数据集上的结果进一步强调了我们的零样本能力。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

定性比较。在下图 5 中,展示了本文的方法与其他生成器的定性结果比较。该图表明,在视觉保真度和文本、视频和音频的对齐方面,TAVDiffusion 优于比较模型。在第一个示例中,TAVDiffusion 生成的“表演者”显示出显著增强的逼真度,特别是在面部表情和手部动作方面。生成的音频也遵循提示中的“吉他声”和“歌声”两个元素。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

在第二个示例中,TAVDiffusion 展示了其产生复杂真实场景的能力,保持了关键对象的精确形状。它巧妙地处理了前景对象(如汽车)与背景场景之间的动态,辅以逼真的音频。还展示了我们模型在两种不同场景下的性能:存在显著背景噪声和显著较安静的环境。对于前者,我们的模型根据提示生成各种类型的音频,如音乐和人类欢呼声。对于后者,我们的模型独特而准确地产生了“鸟叫声”。这种比较显示了该模型的多功能性,展示了其在广泛的音频-视频场景中的有效性。通过在这些对比设置中评估模型,我们突出了其在处理多样化的听觉和视觉输入方面的普遍适用性和稳健性。诚挚地希望读者在补充材料中找到更多的可听视频示例。

消融研究

为了展示我们提出的模块的有效性,进行了消融研究,从定量指标(见下表 3)和定性可视化(见下图 6)两个方面进行。从表 3 中可以看出,我们提出的两种策略,即多模态交叉注意力和多模态对齐,提高了视频和音频生成的质量以及对齐分数。在图6中,可以观察到,我们最终模型产生的“狼”比其他比较更加逼真,其口部动作准确地反映了“不停吠叫”的提示和生成的音频。请参阅补充材料获取更多示例。

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

TAVGBench: 文本生成语音-视频最新基准-AI.x社区

潜在应用

TAVGBench 数据集和基准模型 TAVDiffusion 在多媒体应用领域具有广泛的潜力。数据集包含大量的视频、音频和相应的文本描述,非常适合各种多模态任务。它允许同时使用文本和音频作为提示来生成视频。此外,TAVGBench 还可以用于训练可听视频字幕模型,显著降低了数据不足的音频-视频-文本数据对模型训练的影响,正如 [38] 中所提到的。

结论

本文探索了根据文本描述创建具有匹配音频的视频的挑战,这一任务被称为文本到可听视频生成(TAVG)。为了帮助这项研究,引入了一个名为 TAVGBench 的新基准,其中包含超过 170 万个视频剪辑。这个资源旨在帮助改进和评估 TAVG 模型。开发了一种方法,自动描述每个音频-视觉元素,确保为研究人员提供详细且有用的标注。设计了一个新的度量标准,称为音频-视觉和谐分数(AVH-Score),用于评估生成的可听视频的对齐情况。引入了 TAVDiffusion,这是一个利用潜在扩散的基线模型。该模型结合了交叉注意力和对比学习机制,在扩散 UNet 框架内实现了音频-视频对齐。广泛的实验结果验证了提出的框架的有效性,为多媒体内容创作开辟了新的途径。在未来,我们的目标是探索一种多模态扩散Transformer,通过统一的架构促进可听视频的生成。


本文转自 AI生成未来 ,作者:Yuxin Mao等


原文链接:​​https://mp.weixin.qq.com/s/2WTnji-LNkBh_PAHLgA-GA​

收藏
回复
举报
回复
相关推荐