即插即用!“一模型双任务” | Face-Adapter:超越基于GAN和Diffusion的最新方法 精华
论文链接:https://arxiv.org/pdf/2405.12970
项目链接:https://faceadapter.github.io/face-adapter.github.io/
当前的面部重演和交换方法主要依赖于GAN框架,但最近的研究重点已转向预训练的扩散模型,因为它们具有更强的生成能力。然而,训练这些模型需要大量资源,且结果尚未达到令人满意的性能水平。为了解决这个问题,本文引入了FaceAdapter,是一种高效且有效的适配器,专为预训练的扩散模型提供高精度和高保真度的人脸编辑。
本文观察到,面部重演和交换任务本质上都涉及目标结构、身份和属性的组合。本文旨在充分解耦这些因素的控制,以在一个模型中实现这两项任务。具体来说,本文的方法包括:
- 提供精确的标志点和背景的空间条件生成器;
- 通过Transformer解码器将人脸embedding转移到文本空间的即插即用身份编码器;
- 整合空间条件和详细属性的属性控制器。
与完全微调的面部重演/交换模型相比,FaceAdapter在运动控制精度、身份保留能力和生成质量方面实现了相当或更优的性能。此外,FaceAdapter还能无缝集成到各种StableDiffusion模型中。
介绍
面部重演旨在将目标动作转移到源身份和属性上,而人脸交换则旨在将源身份转移到目标动作和属性上。这两项任务都需要完全解耦并精细控制身份、属性和动作。当前的面部重演和交换技术主要依赖于基于GAN的框架。然而,基于GAN的方法在生成能力上存在局限性,难以处理一些复杂情况,比如在面部重演中处理大角度姿势,以及在人脸交换中适应面部形状的变化。
现有研究尝试通过利用扩散模型强大的生成能力来解决这些挑战。然而,这些方法需要对整个模型进行训练,导致显著的计算开销,且未能成功提供令人满意的结果。例如,FADM对基于GAN的重演方法的结果进行细化,虽然提高了图像质量,但仍未能解决由于大角度姿势变化引起的模糊问题。另一方面,DiffSwap由于训练过程中缺乏背景信息,导致生成的面部结果模糊,从而阻碍了模型的学习。此外,这些方法未能充分利用大型预训练扩散模型的潜力。为了降低训练成本,一些方法引入了用于大型预训练扩散模型的面部编辑适配器插件。然而,这些方法主要集中于使用文本进行属性编辑,不可避免地削弱了空间控制以确保文本的可编辑性。例如,它们只能使用五个点来控制面部姿势,限制了其精确控制表情和视线方向的能力。另一方面,直接用面部区域的mask进行修复并未考虑面部形状的变化,导致身份保留能力的下降。
为了解决上述挑战,本文致力于开发一种高效且有效的面部编辑适配器(Face-Adapter),专门针对预训练扩散模型的面部重演和交换任务。Face-Adapter的设计动机有三点:
- 完全解耦的身份、目标结构和属性控制,能够实现“一模型双任务”;
- 解决被忽视的问题;
- 简单而有效,即插即用。
具体来说,提出的Face-Adapter包括三个组件:
- 空间条件生成器(SCG):用于自动预测3D先验标志点和变化前景区域的mask,为后续的受控生成提供更合理和精确的指导。此外,对于面部重演,这种策略可以缓解仅从源图像中提取背景时可能出现的问题,例如由于摄像机或面部对象的移动导致目标背景变化引起的不一致性;对于人脸交换,模型学习保持背景一致性,获取全局光照和空间参考的线索,并尝试生成与背景和谐的内容。
- 身份编码器(IE):使用预训练的识别模型提取面部embedding,然后通过Transformer解码器中的可学习查询将其转移到文本空间。这种方式大大提高了生成图像的身份一致性。
- 属性控制器(AC):包括两个子模块:空间控制将目标动作的标志点与从空间条件生成器获得的不变背景结合起来。属性模板补充缺失的属性,涵盖光照、部分背景和头发。这两项任务都可以看作是执行条件修复的过程,利用提供的身份和缺失的属性内容。这个过程遵循给定的空间控制规定,达到与背景一致和和谐的效果。
通过这种设计,Face-Adapter不仅能有效地解决当前方法中的问题,还能在保持高精度和高保真度的同时,减少训练成本,并无缝集成到各种稳定扩散模型中。
本文的贡献可以总结如下:
- 引入Face-Adapter:本文提出了Face-Adapter,这是一种轻量级的面部编辑适配器,旨在为预训练的扩散模型提供对身份和属性的精确控制。该适配器在面部重现和交换任务中表现出色,超越了之前的最先进的基于GAN和扩散的方法。
- 新颖的空间条件生成模块:本文提出了一种新颖的空间条件生成模块,用于预测必要的生成区域。该模块与身份编码器和属性控制器协作,将重现和交换任务框架化为具有充分空间指导、身份和必要属性的条件修补任务。通过合理且高度解耦的条件设计,本文释放了预训练扩散模型在这两项任务中的生成能力。
- 高效训练且即插即用:Face-Adapter是一种高效训练、即插即用的面部专用适配器,适用于预训练的扩散模型。通过冻结去噪U-Net中的所有参数,本文的方法有效地利用了先验知识,防止了过拟合。此外,Face-Adapter支持“一种模型用于两项任务”的方法,只需简单的输入修改即可独立完成VoxCeleb 1/2 数据集上的两项面部任务,并取得优越或具有竞争力的结果。
相关工作
面部重演涉及从一个人脸中提取运动并将其转移到另一张脸上,大致可以分为基于变形的方法和基于3DMM的方法。基于变形的方法通常提取关键点或区域对以估计运动场,并在特征图上进行变形以传递运动。但是在处理大幅度运动变化时,这些方法由于难以预测准确的运动场,往往会产生模糊和失真的结果。基于3DMM的方法使用面部重建系数或3DMM渲染图像作为运动控制条件。3DMM提供的面部先验使这些方法在大姿态场景中能够获得更稳健的生成结果。尽管提供了准确的结构参考,但它仅提供粗略的面部纹理,并缺乏对头发、牙齿和眼睛运动的参考。
StyleHEAT和 HyperReenact使用StyleGAN2来提高生成质量。然而,StyleHEAT受限于正面肖像的数据集,而HyperReenact则受到分辨率限制和背景模糊的影响。为了进一步提高生成质量,扩散模型越来越受到欢迎。FADM 将之前的重现模型与扩散细化相结合,但基础模型限制了驱动的准确性。最近,AnimateAnyone 使用重度纹理表示编码器(CLIP和U-Net的副本)来确保动画结果的纹理质量,但这种方法成本高昂。
相比之下,本文旨在充分利用预训练的文本到图像扩散模型的生成能力,并寻求全面克服先前方法中提出的挑战,例如低分辨率生成、处理大幅度变化的困难、高效训练和意外的伪影。
人脸交换旨在将源图像的面部身份转移到目标图像上,同时保持目标图像的其他属性(如光照、头发、背景和运动)不变。最近的方法大致可以分为基于GAN的方法和基于扩散的方法。
- 基于GAN的方法主要致力于解决身份和其他属性的解耦与融合问题。其努力包括引入面部解析mask、各种属性保留损失以及设计融合模块。尽管取得了显著的改进,这些方法在处理面部形状或遮挡的显著变化时,往往会产生明显的伪影。HifiFace通过利用3DMM重建参考脸,将源脸形状与目标的其他属性结合起来,缓解了这个问题。然而,由于依赖于GAN来确保生成质量,HifiFace在处理由于面部形状变化导致的大面积空白区域时,仍然无法生成和谐的结果。
- 基于扩散的方法利用扩散模型的生成能力来提高样本质量。然而,在推理过程中,使用属性保留损失的众多去噪步骤显著增加了训练成本。DiffSwap 提出了中点估计来解决这一问题,但由此产生的误差以及缺乏用于修补参考的背景信息,导致结果不自然。此外,这些方法需要从头开始进行昂贵的训练。
相反,本文的Face-Adapter仅依赖去噪损失来确保图像质量,同时完全解耦目标结构、身份和其他属性的控制。此外,Face-Adapter通过冻结U-Net的所有参数,进一步显著降低了训练成本,这也保留了先验知识并防止过拟合。
预训练扩散模型的个性化。 个性化旨在将给定身份插入预训练的文本到图像(T2I)扩散模型中。早期的工作通过使用优化或微调的方式插入身份。后续研究引入了粗略的空间控制,实现了多主体生成和区域属性的文本编辑,但这些方法需要对大多数参数进行微调。IP-adapter(-FaceID)和InstantID 仅微调少量参数。后者在身份保留方面表现出色。然而,作为文本编辑能力的权衡,InstantID只能应用较弱的空间控制。因此,它在面部重演和交换中的细微动作(表情和视线)处理上存在困难。相比之下,本文的Face-Adapter是一种有效且轻量的适配器,专为预训练的扩散模型设计,能够同时完成面部重演和交换。
方法
所提出的Face-Adapter的整体结构如下图2所示,其目的是将身份信息整合到属性模板中,该模板基于目标动作(例如姿势、表情和目光)提供必要的属性(例如光照、部分背景和头发)。
空间条件生成器
为了为后续的受控生成提供更合理和精确的指导,本文设计了一种新颖的空间条件生成器(SCG),用于自动预测3D先验标志点和变化前景区域的mask。具体来说,该组件由两个子模块组成:
- 3D标志点投影器。为了克服面部形状的变化,本文利用一种3D人脸重建方法来分别提取源脸和目标脸的身份、表情和姿态系数。随后,本文将源脸的身份系数与目标脸的表情和姿态系数重新组合,重建一个新的3D人脸,并将其投影以获取相应的标志点。
- 适应区域预测器。对于面部重演,先前的方法假设只有主体在运动,而背景在训练数据中保持静止。然而,本文观察到背景实际上会发生变化,包括相机和背景中物体的运动,如下图3所示。如果模型在训练过程中缺乏对背景运动的了解,它将学会生成模糊的背景。对于面部交换,提供目标背景还可以为模型提供关于环境光线和空间参考的线索。这种背景的附加约束显著降低了模型学习的难度,使其从一个从头生成的任务转变为一个条件修复的任务。因此,模型变得更善于保持背景一致性并生成与之无缝融合的内容。
基于上述讨论,本文引入了一种轻量级的适应区域预测器,用于面部重演和交换。该预测器自动识别模型需要生成的区域(适应区域),同时保持其余部分不变。对于面部重演,适应区域包括重演前后源图像头部所占据的区域。
身份编码器
属性控制器
在这个阶段,重演和交换任务都可以被视为执行条件修复的过程,利用给定的身份和其他缺失的属性内容,遵循提供的空间控制。
提高表现的策略
训练
1) 数据流: 对于面部重演和人脸交换任务,本文使用同一人的两个不同姿势的图像作为源图像和目标图像。为了支持“一个模型用于两个任务”的方法,本文在训练过程中以50%的概率选择重演和交换数据流,即属性控制器中的空间控制和属性模板分别使用红色和蓝色指示的数据流。
2) 分类器无条件引导的条件丢弃: 本文需要丢弃的条件包括输入到U-Net和ControlNet交叉注意力中的身份token和属性token。本文以5%的概率同时丢弃身份token和属性条件,以增强图像的真实性。为了充分利用身份token生成面部图像并改善身份保真度,本文使用额外的45%的概率丢弃属性token。
推理
1) 自适应区域预测器: 对于重演,输入是源图像(与训练不同)和校正后的关键点,输出是自适应区域。对于人脸交换,输入是目标图像,输出是自适应区域。
2) 分类器无条件引导的负提示: 对于重演,身份token和属性token的否定提示都是空的提示embedding。对于人脸交换,为了克服目标身份在属性token中的负面影响,本文使用目标图像的身份token作为身份token的负提示。
实验
实验设置
数据集。在训练过程中,本文利用了VoxCeleb1和VoxCeleb2 数据集。在评估过程中,本文利用了VoxCeleb1 数据集中的491个测试视频,并在定量评估面部重演时随机抽取了1,000张图像。本文在定量评估人脸交换时使用了FaceForensics++数据集。本文还从VoxCeleb2中保留了1,000张图像用于定性评估。按照FOMM 中的预处理方法,本文从原始视频中裁剪出人脸,并将其调整为512×512的大小进行训练和评估。
评估指标。对于面部重演,本文使用PSNR和LPIPS 来评估同一身份重演的重建质量。本文使用FID来评估生成图像的整体质量。本文使用计算的余弦相似度(CSIM)来评估身份保真度。运动转移误差由姿势(Pose)、表情(Exp)和视线(Gaze)来衡量,这些指标计算生成图像和驱动图像之间的姿势、表情和视线系数的平均欧氏距离。对于人脸交换,身份检索(ID)通过检索最接近的面孔来评估身份修改,而姿势(Pose)、表情(Exp)和视线(Gaze)则评估生成脸和目标脸之间的属性误差。
与最先进方法的比较
面部重演。 在下表1中,本文在VoxCeleb1测试集上定量比较了当前最先进的方法(SoTA),包括基于GAN的FOMM、PIRenderer、DG、TPSM 、DAM、HyperReenact,以及基于扩散模型的FADM。FOMM、TPSM和DAM是基于图像形变(warping-based)的技术,而PIRenderer和HyperReenact则是基于3D形态模型(3DMM-based)的技术。
本文在图像质量上达到了可比甚至最佳的结果。由于空间条件生成器的作用,在训练过程中,将目标背景区域纳入空间条件中,避免了背景运动的干扰。
在推理过程中,将源背景添加到空间条件中显著降低了生成背景的难度,提高了背景的一致性。结果是,本文的方法能够生成高质量的图像,在FID评分以及重建指标(如PSNR和LPIPS)上具有明显的优势。在运动控制方面,本文的方法在姿态和视线误差上表现良好,但在表情误差上表现不佳。由于本文的标志点来自D3DFR,重建和投影过程以及标志点的稀疏性导致了表情准确度的损失。因此,本文的方法在表情误差方面表现相对中等。
在下图5和下图6中,本文在VoxCeleb1和VoxCeleb2测试集上与现有的最先进(SoTA)方法进行了定性比较。空间条件生成器有效地确保了本文的结果与源背景一致,同时减少了模型的训练难度,使其能够更多地关注面部生成并提高图像质量。冻结UNet的所有参数可以避免过拟合,并尽可能保留预训练扩散模型的强大先验。因此,与其他基于GAN的方法和从头训练的基于扩散的方法(如FADM)相比,本文的方法能够生成与源图像一致的真实属性细节,即头发纹理、帽子和配饰。
除了局部细节外,属性控制器中的属性token还能有效地从源图像中提取全局光照效果,显著优于其他方法。这进一步突显了本文所提出方法在捕捉局部和全局特征方面的优势和能力,从而生成更加逼真和准确的结果。即使在处理大姿态时,身份编码器也能确保身份的稳健保留,预训练的扩散模型合理地生成诸如随面部移动的长发等属性,展示了本文所提出适配器的优越性。
在面部替换方面,本文在下表2中定量比较了在FaceForensics++测试集上的最先进方法,包括基于GAN的FaceShifter、SimSwap、HifiFace、InfoSwap、BlendFace和基于扩散的DiffSwap。
本文的3D标志投影器有助于融合源脸的形状和目标的姿势、表情和视线,以在本文的空间控制中获得目标运动标志。本文的适应区域预测器允许面部形状的变化有足够的空间,同时保留足够的背景用于修复。这种组合的空间条件有利于模型生成自然图像。虽然DiffSwap也通过D3DFR利用了形状感知标志作为空间控制,但其修复过程仅在DDIM采样期间进行。缺乏背景参考使得模型难以生成清晰的面部结果,这显著影响了图像质量和身份相似性。
在常用的FaceForensics++测试集上,本文的方法在身份(ID)、姿势(Pose)、表情(Exp)和视线(Gaze)方面与基于GAN的方法相当。因此,与基于GAN和扩散的最先进方法相比,本文的方法在保持高运动准确性的同时,在身份方面表现出显著优势。
下图7和下图8展示了本文的方法与最新的现有方法的定性比较。以前的方法在处理面部形状显著变化和大角度姿势时存在困难。当将瘦脸的人转移到胖脸的目标图像时,这些方法通常会保持目标图像的面部形状,导致身份显著丧失。相比之下,本文的空间控制有效地解决了面部形状变化的问题。
与仅仅裁剪面部区域的以前方法不同,本文的适应区域预测器为面部形状变化预留了充足的空间。借助预训练的SD模型的强大生成能力,本文可以自然地完成具有面部形状变化的区域。此外,通过在换脸推理过程中使用目标图像的身份token作为负面提示,本文进一步增强了与源脸的身份相似性。对于大角度姿势,以前的方法难以生成合理的结果,而本文的方法直接从3D标志生成面部,不受姿势影响。
消融研究和进一步分析
本文对适应区域预测器进行了消融研究,并评估了微调CLIP的必要性。为了公平比较,这里所有三个模型都训练了35,000步。在Voxceleb1跨身份测试集上进行了定量评估,涵盖了面部重演和换脸任务。
适应区域预测器。 正如下表3和下图9所示,没有适应区域预测器的情况下,空间控制缺乏背景,仅包含来自3D标志投影器的标志。在训练过程中,模型在面部重演时从源图像中提取背景特征,同时使用目标图像背景作为真实值。这种差异往往导致模型在背景上产生幻觉,并且在推理过程中难以保持与源图像背景的一致性。对于换脸任务,由于模型没有进行修复任务的训练,在推理过程中将面部与周围区域融合时会出现明显的不自然伪影。
微调CLIP以提取属性特征。 正如上表3和上图9所示,冻结CLIP会导致详细属性和图像质量下降。预训练的CLIP用于区分任务,缺乏生成任务所需的详细纹理特征。微调CLIP有助于提取详细的属性特征,包括头发、衣服、部分缺失的背景和全局照明;此外,微调后的CLIP模型还提取了一些与面部身份相关的特征,这有助于提高面部重演中的身份相似性评分。
结论
本文提出了一种新颖的Face-Adapter框架,这是一种即插即用的面部编辑适配器,支持对预训练扩散模型的身份和属性进行精细控制。仅使用一个模型,该适配器就能有效解决面部重演和换脸任务,超越了以前基于GAN和扩散方法的最新技术。它包括一个空间条件生成器、一个身份编码器和一个属性控制器。空间条件生成器用于预测3D先验标志和需要更改区域的mask,与身份编码器和属性控制器协同工作,将重演和换脸任务表述为具有充分空间指导、身份和必要属性的条件修复。通过合理且高度解耦的条件设计,本文释放了预训练扩散模型在面部重演和换脸任务中的生成能力。广泛的定性和定量实验展示了本文方法的优越性。
局限性:本文统一的模型在视频面部重演/换脸中无法实现时间稳定性,这需要在未来引入额外的时间微调。
潜在社会影响:本文首次探索了一种基于扩散的轻量级框架,用于同时进行面部重演和换脸,这在提高生成内容质量的同时具有更高的实际应用价值。然而,Face-Adapter的潜在滥用可能导致隐私侵犯、虚假信息传播和伦理问题。为了减轻这些风险,可以结合可见和不可见的数字水印,以帮助识别内容的来源和真实性。另一方面,Face-Adapter可以为伪造检测领域做出贡献,进一步增强识别和打击深度伪造的能力。
本文转自 AI生成未来 ,作者:Yue Han等