音频秒生全身虚拟人像，AI完美驱动面部肢体动作！UC伯克利Meta提出Audio2Photoreal-51CTO.COM

就在最近，Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法——

直接根据音频生成全身人像，效果不仅逼真，还能模拟出原音频中包含的细节，比如手势、表情、情绪等等。

图片

论文地址：https://arxiv.org/abs/2401.01885

话不多说，直接上图。

图片

可以看到，人像刷地一下就出来了，十分逼真。

而且从上面的文字对话可以看到，就是在讲可以用音频生成虚拟人像这件事。讲者的手势动作真的像是在做讲解。

音频到Avatar，一步！

这个系统不光可以生成全身逼真的形象，人像还会根据二人互动的对话动态做出手势。

给定语音音频后，音频会为一个人输出多种可能的手势动作，包括面部、身体和双手等部位。

Meta表示，方法的关键就在于将矢量量化带来的样本多样性优势与通过扩散获得的高频细节相结合，从而生成更具动态和表现力的动作。

图片

研究团队使用了高度逼真的人像，将生成的运动可视化。这些头像可以表达手势中的关键细微差别（如讥笑和傻笑）。

为了促进这一研究方向，Meta首次引入了一个叫作多视角对话数据集的玩意儿，可以让用户进行逼真的重建。

实验表明，Meta的新模型能生成恰当且多样化的手势，从性能上讲，要优于扩散和纯VQ的方法。

此外，在研究过程中，Meta在感知评估这一块强调了逼真度在准确评估对话手势中所包含的微妙运动细节方面的重要性。

Meta已将代码和数据集公开发布在了网站上。

具体来看，要实现这个最终结果，有以下6个步骤：

一个新颖、丰富的二元对话数据集，可以进行逼真的重构。

图片

由三部分组成的运动模型：面部运动模型、引导姿势预测器和身体运动模型。

图片

给定音频和预训练唇语回归器的输出，Meta训练一个条件扩散模型来输出面部运动。

图片

对于身体部分，Meta将音频作为输入，并以1fps的速度自回归输出VQ-ed引导姿势。

图片

然后，将音频和引导姿态传递到同一个扩散模型中，以30 fps的速度填充高频率的身体运动。

图片

最后，生成的面部和肢体运动都会传入Meta训练过的人像渲染器，生成逼真的人像。

图片

然后，成品就有了！

图片

Meta在博客中列举了四个比较有特色的点，以此来凸显效果的逼真和模型的强大。

甩腕表示梳理要点；讲故事时耸肩。

表达「它们的发生肯定是有原因的」时，强调手臂的动作；用手指的动作来表示陈述。

图片

通过手部动作来配合谈话，以及声音的起伏。

图片

提问时手指的动作细节；想问题时头向后仰，做思考状；回答时手向外推。

图片

论文

经过前面的介绍，整个流程大家估计已经很熟悉了。

无非就是，音频输入、中间过程，以及最终输出。

图片

关于对话的原始音频，Meta引入了一个模型（上面提到过），该模型能为两人中的其中一人生成相应的逼真面部、身体和手部动作。

研究人员从记录的多视角数据中提取潜在表情代码来表示面部特征，并用运动骨架中的关节角度来表示身体姿势。

该系统由两个生成模型组成，在输入二人对话音频的情况下，生成表情代码和身体姿势序列。

图片

然后，就可以使用Meta的神经人像渲染器，逐帧渲染表情代码和身体姿势序列。

首先，脸部与输入音频的相关性很强，尤其是嘴唇的运动，而身体与语音的相关性较弱。这就导致在给定的语音输入中，肢体手势的合理性更加多样化。

其次，由于在两个不同的空间（学习到的表情代码与关节角度）中表示面部和身体，因此它们各自遵循不同的时间动态。因此，研究人员选择用两个独立的运动模型来模拟面部和身体。这样，脸部模型就可以将其能力用于生成与语音一致的脸部细节，而身体模型则可以专注于生成多样但合理的身体运动。

此外，面部运动模型是一个扩散模型，以输入音频和由预先训练的唇部回归器生成的唇部顶点为条件，如下图所示。

图片

对于肢体运动模型，Meta发现，仅以音频为条件的纯扩散模型产生的运动多样性较少，而且在时间上显得不可思议。

但是，当以不同的引导姿势为条件时，质量就会提高。

因此，Meta选择将身体运动模型分为两部分：首先，自回归音频条件变换器以 1fps 的速度预测粗略的引导姿势，然后扩散模型利用这些粗略的引导姿势来填充细粒度和高频运动。

图片

为了从音频输入生成面部动作，Meta构建了一个以音频为条件的扩散模型，遵循DDPM对扩散的定义。

前向噪声过程定义为：

图片

其中，F(0)近似于无噪声的面部表情代码序列，τ∈ [1, ... , T˙]表示前向扩散步骤，ατ∈ (0, 1) 遵循单调递减。当 τ接近T˙时，Meta对F(T˙)∼N(0, I)进行采样。

为了逆转噪声过程，Meta定义了一个模型，从噪声F(τ)中去噪F(0)。

然后，将前向过程应用于预测的F(0)，就能得到反向过程的下一步F(τ-1) 。

而对于身体动作的模型，给定对话的输入音频后，自注意力模型P会生成多种多样的引导姿势序列样本，包括倾听反应、说话手势和插话。

P会从丰富的已学姿势代码库中采样，可生成各种姿势，甚至还有如指点、搔痒、鼓掌等小动作，在不同样本中具有很高的多样性。

图片

然后，这些不同的姿势将被用于身体扩散模型J的条件。

实验阶段，Meta评估了模型有效生成逼真对话动作的能力。

研究人员根据跟踪的实况数据（F、J）对结果的真实性和多样性进行了定量评估。

同时还进行了感知评估，以证实定量结果，并衡量生成的手势在特定对话环境中的适当性。

评估结果表明，在逼真的头像上呈现的手势比在三维网格上呈现的手势更容易被评估者感知。

下图为基线和消融（ablation）与实况（GT）的对比。下箭头↓ 表示越低越好。

Meta对数据集中的所有受试者取平均值，并对Divsample的5个序列进行采样，并对每个指标的所有采样取平均值。下标为标准偏差（μσ）。

图片

下图为唇部动作的误差。垂直和水平距离是上下和左右关键点之间沿Y（X）轴的距离。

下表中显示的是GT与生成距离之间的L2差值。Mesh L2指的是唇部区域生成网格顶点与GT网格顶点的误差。误差单位为平方毫米。

图片

为了量化对话中的手势连贯性，Meta主要通过感知评估来评价。

研究团队在Amazon Mechanical Turk上进行了两种不同的A/B测试。在第一个测试中，评估者观看的是在普通非纹理网格上渲染的动作。在第二项测试中，评估者观看的是逼真人像上的运动视频。

在这两种情况下，评估者都观看了一系列视频对比。

在每对视频中，一个视频来自Meta的模型，另一个视频来自最强基线LDA或GT。然后，评估人员被要求根据对话音频找出看起来更合理的动作。

同时，可选答案还细化到了略微偏好与强烈偏好。

如下图所示，Meta引入的方法明显优于最强基准LDA，大约70%的评估者在Mesh和照片真实设置中都更喜欢Meta的成品。

有趣的是，当以逼真的方式可视化时，评估者对该方法的偏好从略微偏好转为了强烈偏好。

而当将Meta的方法与GT进行比较时，这一趋势仍在继续。

在基于Mesh的渲染中，Meta的方法与GT相比，同样具有竞争力，但在逼真领域却落后了。43%的评估者强烈倾向于GT而非Meta的方法。

由于Mesh通常会掩盖微妙的运动细节，因此很难准确评估手势中的细微差别，导致评估者会对不正确的运动更加宽容。

综上来看，结果表明，逼真度对于准确评估对话动作至关重要。

图片

参考资料：

https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/