击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型 精华

发布于 2024-12-12 14:46
浏览
0收藏

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

论文链接:https://arxiv.org/pdf/2412.01064
github链接:https://deepbrainai-research.github.io/float/

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

亮点直击

  • FLOAT,这是一种基于流匹配的音频驱动说话者头像生成模型,利用了学习的运动隐空间,比基于像素的隐空间更高效和有效。
  • 引入了一种简单而有效的基于Transformer的流向量场预测器,用于时间一致的运动隐空间采样,这也使得语音驱动的情感控制成为可能。
  • 大量实验表明,与基于扩散和非扩散的方法相比,FLOAT达到了最先进的性能。

总结速览

解决的问题

  • 在基于扩散的生成模型中,迭代采样导致时间一致的视频生成困难。
  • 如何实现快速采样以提高生成效率。
  • 如何在音频驱动的头像图像动画中自然地融入情感和表现力丰富的动作。

提出的方案

  • 将生成建模从基于像素的隐空间转移到学习的运动隐空间,以实现更高效的时间一致运动设计。
  • 引入基于Transformer的向量场预测器,具有简单而有效的逐帧条件机制。

应用的技术

  • 流匹配生成模型,用于优化运动隐空间的学习。
  • Transformer模型,用于预测流向量场,实现时间一致的运动采样。
  • 逐帧条件机制,确保时间一致性并支持语音驱动的情感控制。

达到的效果

  • 在视觉质量上,生成的头像更加逼真,表现力更丰富。
  • 在运动保真度上,动作更加自然流畅。
  • 在效率上,相较于基于扩散和非扩散的方法,FLOAT具有更高的采样速度和生成效率。
  • 支持语音驱动的情感增强,能够自然地融入表现力丰富的动作。

方法:音频驱动的说话头像的流程匹配

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

运动隐空间自动编码器

近期的说话头像方法利用了Stable Diffusion (SD) 的VAE,因为其具有丰富的基于像素的语义隐空间。然而,当应用于视频生成任务时,这些方法常常难以生成时间一致的帧 [8, 29, 76, 89, 101]。因此,第一个目标是为逼真的说话头像获得良好的运动隐空间,能够捕捉全局(例如头部运动)和细粒度局部(例如面部表情、嘴部运动、瞳孔运动)动态。为此,我们采用隐空间图像动画器 (LIA) 作为我们的运动自动编码器,而不是使用SD的VAE。关键区别在于训练目标:LIA被训练为从同一视频片段中采样的源图像重建驱动图像,这要求隐空间编码包含能够捕捉时间上相邻和远离的运动的隐式运动。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

运动隐空间中的流匹配

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

语音驱动的情感标签。 如何使说话动作更具表现力和自然性?在说话过程中,人类通过声音自然地反映出他们的情感,而这些情感会影响说话的动作。例如,一个悲伤说话的人可能更倾向于摇头并避免眼神接触。这种由情感引发的非语言动作对说话者头像的自然性有着重要影响。


现有的工作 [30, 81, 90] 使用图像-情感配对数据或图像驱动的情感预测器 [63] 来生成情感感知的动作。相比之下,我们结合了语音驱动的情感,这是一种更直观的音频驱动说话者头像的情感控制方式。具体来说,我们利用一个预训练的语音情感预测器,它输出七种不同情感的 softmax 概率:愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶,然后我们将其输入到 FMT 中。


然而,由于人们在说话时并不总是表现出单一、明确的情感,仅凭音频来判断情感往往是模糊的。简单地引入语音驱动的情感可能会使情感感知的动作生成更加困难。为了解决这个问题,我们在训练阶段将情感与其他驱动条件一起注入,并在推理阶段对其进行修改。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

我们扩展了 CFV 到增量 CFV,以便分别调整音频和情感,灵感来自 [3]:

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

采样后,ODE 求解器接收估计的向量场,通过数值积分计算运动隐空间变量。我们通过实验发现,FLOAT 可以在大约 10 次函数评估(NFE)内生成合理的运动。

最后,我们将源身份隐空间变量添加到生成的运动隐空间变量中,并使用运动隐空间变量解码器将其解码为视频帧。

实验

数据集和预处理

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

经过预处理后,对于 HDTF,我们使用了总计 11.3 小时的 240 个视频,这些视频包含 230 个不同的身份用于训练,并使用 78 个不同身份的视频进行测试,每个视频长 15 秒。对于 RAVDESS,我们使用 22 个身份的视频进行训练,剩余 2 个身份的视频用于测试,每个视频长 3-4 秒,代表 14 种情感强度。请注意,两个数据集中训练和测试的身份是不重叠的。

实现细节

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

评估

指标和基线。 为了评估图像和视频生成的质量,我们测量了Fréchet Inception Distance (FID) 和16帧的Fréchet Video Distance (FVD)。对于面部身份、表情和头部运动,我们分别测量了身份embedding的余弦相似度 (CSIM)、表情FID (E-FID) 和姿态FID (P-FID)。最后,我们测量了音频与视觉对齐的唇同步误差距离和置信度 (LSE-D 和 LSE-C)。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

我们将我们的方法与当前最先进的语音驱动说话者头像方法进行比较,这些方法的官方实现是公开可用的。对于非扩散方法,我们与SadTalker和EDTalk进行比较。对于扩散方法,我们与AniTalker、Hallo和EchoMimic进行比较。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

比较结果。在上表1和上图4中,我们分别展示了定量和定性的比较结果。FLOAT在大多数指标和视觉质量上都优于两个数据集中的其他方法。

消融研究

关于FMT和流匹配的消融研究。 我们将使用逐帧AdaLN(和门控)并通过掩码自注意力将条件分离与注意力分开的FMT,与同时执行条件和注意力的基于交叉注意力的Transformer进行比较。如下表2所示,这两种方法都在图像和视频质量上表现出竞争力,而FMT在表情生成和唇同步方面表现更佳。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

对NFE的消融研究。 一般来说,增加函数评估次数(NFE)可以减少ODE的解误差。如下表3所示,即使在NFE=2较小的情况下,FLOAT也能实现有竞争力的图像质量(FID)和唇同步(LSE-D)。然而,它在捕捉一致且富有表现力的动作(FVD和E-FID)方面表现不佳,导致头部动作不稳和表情静态。这是因为FLOAT在隐空间中生成动作,而图像保真度由自动编码器决定。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

进一步的研究

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

值得注意的是,引入姿态参数显著改善了图像和视频指标。这是因为驱动的头部姿态有助于捕捉目标分布的头部姿态。此外,语音驱动的情感和图像驱动的情感都一致地提高了在情感密集数据集中生成的动作质量,其中图像驱动的情感取得了略好一些的指标。这是因为与语音驱动的方法相比,图像驱动的方法稍微不那么模糊。


重定向语音驱动的情感。 由于 FLOAT 是在情感密集型视频数据集上训练的,我们可以通过手动将预测的情感标签重定向为另一种(例如,一个独热标签),在推理时将生成的情感感知说话动作更改为不同的情感。如下图7所示,当从语音预测的情感复杂或模糊时,这可以实现手动重定向。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

用户研究。 在下表 6 中,我们进行了一项基于平均意见得分(MOS)的用户研究,以比较每种方法的感知质量(例如,牙齿清晰度和情感自然性)。我们使用基线和 FLOAT 生成了 6 个视频,并请 15 名参与者根据五个评估因素对每个生成的视频进行 1 到 5 的评分。如下表 6 所示,FLOAT 优于基线。

击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型-AI.x社区

结论

FLOAT,这是一种基于流匹配的音频驱动说话者头像生成模型,利用了学习到的运动隐空间。引入了一个基于transformer的矢量场预测器,实现了时间上一致的运动生成。此外,将语音驱动的情感标签纳入运动采样过程,以提高音频驱动说话动作的自然性。FLOAT 通过流匹配减少采样时间,同时实现了卓越的样本质量,解决了当前基于扩散的方法在生成说话者头像视频时的核心限制。大量实验验证了 FLOAT 在视觉质量、运动逼真度和效率方面达到了最新的性能。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/i0ysU0vnEcG0ZKiiCrjOBA​

标签
收藏
回复
举报
回复
相关推荐