让真人照片说话算什么？Adobe新研究让插座都能开口说话-照片的真人

不仅让真人图像开口说话，油画、素描、漫画等都能动起来！

给出一张面部图像和一段音频，能做什么？AI 有办法，比如让图像中的人开口说话！

此前，机器之心报道过三星人工智能研究中心和伦敦帝国理工学院提出的新型端到端系统，仅凭一张人脸照片和一段音频，就可以生成新的讲话或唱歌视频。

最近我们发现了一项类似的研究，马萨诸塞大学阿默斯特分校、Adobe 研究院等机构提出了一种叫做 MakeItTalk 的新方法，不仅能让真人头像说话，还可以让卡通、油画、素描、日漫中的人像说话。

è®©çœŸäººç…§ç‰‡è¯´è¯ç®—ä»€ä¹ˆï¼ŸAdobeæ–°ç ”ç©¶è®©æ’åº§éƒ½èƒ½å¼€å£è¯´è¯

论文链接：https://arxiv.org/pdf/2004.12992v1.pdf

不信就来看看效果吧！

我们首先看一看真人图像的动态化效果。

看起来不错，那么卡通画呢？

给我一个插座，我能让他成精！

è®©çœŸäººç…§ç‰‡è¯´è¯ç®—ä»€ä¹ˆï¼ŸAdobeæ–°ç ”ç©¶è®©æ’åº§éƒ½èƒ½å¼€å£è¯´è¯

还有油画。

如果我想让图像中的人物摇头晃脑高谈阔论，或者保持沉静端庄呢？

答案是也可以实现。

动图 get 不到声画同步效果？请戳下面这个视频：

那么，这是如何做到的呢？

之前的方法往往学习音频和原始像素之间的直接映射进而创建人物的说话动态，而这项研究提出的方法将输入音频信号中的内容和说话人身份信息分离开来：音频内容用来稳健地控制嘴唇及周围区域的运动；说话人信息则决定面部表情的细节和人物的头部动态。

该方法的另一个重要组件是预测能够反映说话人动态的面部特征点。基于该中间表征，该方法能够为真人头部图像合成说话状态视频。此方法还可用于艺术作品、素描、2D 卡通人物、日漫、随手涂鸦等图像。

研究者对该方法进行了定量和定性评估，结果表明与之前的 SOTA 方法相比，该方法能够生成具备更高质量的说话状态头部动画。

图 8：与 SOTA 方法的对比。

研究贡献

该研究的主要贡献如下：

提出一种基于深度学习的新架构，能够仅基于语音信号预测面部特征点，捕捉嘴唇、下巴、眉毛、鼻子和头部的姿势；
基于分离开的语音内容和说话人表征生成包含面部表情和头部动态的动画；
针对矢量风格卡通图像和真实人物面部图像各提出一种图像合成方法。这些方法可以处理训练过程中未出现的新人脸图像和卡通人物图像；
提出一组定量度量指标，并对头部动画方法的评估进行了用户调研。

MakeItTalk 架构

图 2：MakeItTalk 方法概览。

如上图所示，给出一段音频和一张面部图像，MakeItTalk 架构可以生成说话人的头部状态动画，且声画同步。

在训练阶段，研究者使用现成可用的人脸特征点检测器对输入图像进行预处理，提取面部特征点。然后使用输入音频和提取到的特征点直接训练使语音内容动态化的基线模型。为了达到高保真动态效果，研究者尝试将输入音频信号的语音内容和说话人嵌入分离开来，进而实现面部特征点的预测。

具体而言，该研究使用声音转换神经网络将语音内容和说话人身份信息分离开。

语音内容与说话人无关，仅捕捉嘴唇及周围区域的运动（参见图 2「Speech Content Animation」）。说话人的身份信息则决定了动作的细节和说话人的其余头部动态（参加图 2「Speaker-Aware Animation」）。

例如，不管谁说单词「Ha!」嘴唇都会张开，这与说话人无关，仅取决于说话内容。而嘴唇的形状和张开的幅度，以及鼻子、眼睛和头部的动态则取决于说话人的身份。

基于语音内容和说话人身份信息，MakeItTalk 模型为给定音频输出预测特征点序列。

图 3：针对不同说话人身份的特征点预测。左：给定人脸图像的静态特征点；右上：对说话时头部动作较轻的人的预测特征点序列；右下：对说话时头部动作较大的人的预测特征点序列。

为了生成光栅图像，研究者开发了两种特征点-图像合成（landmark-to-image synthesis）算法。

对于非真人图像，如油画或矢量图（图 9），该研究使用基于德劳内三角剖分（Delaunay triangulation）的简单换脸方法。

图 4：通过面部特征点和德劳内三角剖分进行卡通图像换脸。左：给出的卡通图像和面部特征点；中：德劳内三角剖分；右：由预测特征点引导进行换脸后的图像。

对于真人图像（图 8），则使用图像转换网络（类似于 pix2pix）将真人面部图像和底层特征点预测动态化（参见上图 2「Image2Image Translation」）。

之后结合所有图像帧和输入音频，就可以得到最终的说话状态头部动画了。

下图 6 展示了卡通图像和真人图像的动态化结果：

图 6：MakeItTalk 生成的卡通动画和真人面部动画。该方法不仅可以合成面部表情，还可以合成不同的头部姿势。

MakeItTalk 有何实际用途？

合成说话状态头部动画有很多应用场景，比如配音。

下图 7a 中，原始视频使用语言为英语，而配音版使用的是西班牙语，那么问题来了，配音版影片中人物的面部表情和语音对不上号。使用 MakeItTalk 后可以生成语音对应的视频帧，实现声画同步，并保持原版视频中的说话风格。

另一个应用则是目前应用广泛的视频会议。

在有限带宽视频会议中，视频帧无法以高保真度和高帧率进行传输，这时我们就可以利用声音信号带动说话者的头部动态视频。与视觉画面相比，声音信号可以以较低的带宽保存。而且，面部表情（尤其是嘴唇动作）对于沟通交流非常重要。下图 7b 展示了，使用 MakeItTalk 仅基于音频和初始高质量视频帧合成的头部动态视频。

图 7：MakeItTalk 的应用。第一行：用不同语言为视频配音；第二行：有限带宽视频会议。