重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)

发布于 2024-4-2 12:50
浏览
0收藏

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

论文链接:https://arxiv.org/pdf/2403.13535

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

先看效果

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

利用Stable Diffusion技术进行个性化肖像生成已经成为一种强大而引人注目的工具,使用户能够根据特定的prompts创建高保真度的定制角色头像。然而,现有的个性化方法面临着挑战,包括测试时微调、需要多个输入图像、身份保存度低以及生成结果的多样性有限等。


为了克服这些挑战,本文引入了IDAdapter,这是一种无需调整的方法,可增强来自单个人脸图像的个性化图像生成中的多样性和身份保留度。IDAdapter通过文本和视觉注入以及人脸身份损失将个性化概念整合到生成过程中。在训练阶段,将来自特定身份的多个参考图像的混合特征纳入到模型中,以丰富与身份相关的内容细节,引导模型生成具有更多样化风格、表情和角度的图像,相比之前的作品更为丰富。广泛的评估表明了本文方法的有效性,在生成的图像中实现了多样性和身份保真度。

介绍

最近,文本到图像(T2I)合成领域取得了显著进展,特别是随着扩散模型的出现。诸如Imagen、DALL-E2以及Stable Diffusion等模型因其能够从自然语言提示生成逼真的图像而受到关注。虽然这些模型擅长从大量文本-图像数据集生成复杂、高保真度的图像,但从用户提供的照片中生成特定主题的图像仍然是一个重大挑战。


在文本到图像(T2I)合成中实现个性化主要通过采用预训练模型的方法来实现。这些方法通常涉及使用一组特定的参考图像(3到20张)对模型进行微调。虽然有效,但这种方法需要对某些网络层进行专门训练,通常需要大量的计算资源和在高端GPU上的额外处理时间,这对于面向用户的应用可能是不可行的。


还有一种策略,是利用大规模个性化图像数据集训练的adapters等额外参数增强预训练的扩散模型。这种方法实现了无需调整的条件生成,但通常缺乏微调方法的保真度和多样性。例如,如[6]和[37]所示,这种方法通常将生成的图像限制在输入图像中存在的表情中,从而限制了扩散模型的广泛创造潜力。


受到利用多个参考图像进行测试时微调方法和adapters系列的启发,本文引入了IDAdapter。该创新方法在训练期间合成来自同一个人的各种图像的特征,有效地减轻了对非身份属性的过拟合。IDAdapter通过冻结基本扩散模型的主要权重运行,在单个GPU上进行不到10小时的训练。


在推理期间,IDAdapter仅需要一个参考图像和文本提示就能生成多样化、高保真度的图像,保持人物的身份,如图1所示。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

它扩展了基本模型可以生成的范围,使结果更加多样化同时保持身份,超越了以前模型的局限性。本文的贡献有三个方面:

  • 提出了一种在训练期间合并同一个人的多个参考图像的混合特征的方法,从而产生了一个避免测试时微调的T2I模型。
  • 在无需测试时微调的情况下,能够在多个风格中生成多样化的角度和表情,以单张照片和文本提示为指导,这是以前无法实现的能力。
  • 综合实验验证了本文的模型在产生与输入人脸紧密相似的图像、展示多种角度和展示更广泛表情的方面优于早期模型。

相关工作

文本到图像模型

随着深度生成模型在文本到图像合成领域的发展,计算图像生成领域取得了显著进步。诸如生成对抗网络(GANs)、自回归模型和扩散模型等技术起到了关键作用。


最初,这些模型只能在特定领域和文本条件下生成图像。然而,大规模图像文本数据集的引入和先进的语言模型编码器显著提高了文本到图像合成的能力。开创性的DALL-E利用自回归模型从文本提示创建多样化的图像。随后的GLIDE引入了扩散模型,以生成更真实、更高分辨率的图像。因此,扩散模型越来越成为文本到图像合成的主流方法。最近的发展如DALL-E 2、Imagen和LDM进一步增强了这些模型,提供了更多的真实感、更好的语言理解和多样化的输出。Stable Diffusion在开源社区中的成功引起了其广泛的使用和各种微调模型的开发。本文的方法论是基于Stable Diffusion模型。

通过主题驱动调整进行个性化

个性化生成的目标是根据参考图像在不同场景和风格中创建特定主题的变体。最初,生成对抗网络(GANs)被用于这个目的,通过对大约100张面部图像微调StyleGAN实现了个性化。随后,pivotal tuning涉及在StyleGAN中微调潜在空间code,从而实现了变体图像的创建。然而,这些基于GAN的方法在主题保真度和风格多样性方面存在局限性。


最近的进展随着Stable Diffusion模型的出现而取得了进步,提高了主题保真度和输出多样性。文本反演通过使用少量图像优化输入文本 embeddings以生成主题图像。[42]的研究增强了文本反演以捕获详细的主题信息。DreamBooth为了获得更高的保真度,优化了整个T2I网络。随后,几种方法如CustomDiffusion、SVDiff、LoRA、StyleDrop以及[18]的方法提出了部分优化。DreamArtist展示了单张图像的风格个性化。尽管这些方法有效,但它们涉及耗时的多步微调过程,对于每个新概念都有限制,限制了它们在现实世界应用中的实用性。

无调整文本到图像个性化

一个独特的研究方向涉及使用大量特定领域的数据训练模型,从而消除了推理阶段的额外微调的需要。Instruct-Pix2Pix通过将参考图像的潜在特征整合到噪声注入过程中,促进了对象替换和风格变化。ELITE引入了一个训练协议,结合了全局和局部映射,利用了OpenImages测试集。UMM-Diffusion利用LAION-400M数据集,提出了一种结合文本和图像输入的多模态潜在扩散方法。几项研究,如UMM、ELITE和SuTI,已经证明了无需微调即可生成主题图像。


类似地,Taming-Encoder和InstantBooth专注于人类和动物主题,采用了扩散模型的新条件分支。FastComposer、Face0和PhotoVerse也在这一领域提出了新颖的方法。尽管取得了这些进展,一个关键挑战仍然在于在易用性与生成质量和多样性之间的平衡。本文提出的解决方案,IDAdapter,通过协调模型的可用性和输出的质量与多样性来解决这个问题。

方法

考虑到一个特定人物的单张面部图像,打算通过文本提示生成该人物的一系列生动图像,并具有多样性。例如多样性包括不仅调整着装、属性、背景等语义修改(本文中称为“风格”),而且生成各种面部表情和姿势。接下来简要回顾了潜在扩散模型的必要符号,以及从单张图像中简单提取面部特征的方法,然后提出了从少量图像中提取混合面部特征的技术,最后通过adapter层将其作为新概念合并到生成器结构中。下图2显示了本文基于Stable Diffusion结构的方法概述。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

准备工作

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

面部特征

本文的目标是从输入图像中提取面部特征,将它们与文本提示所表示的风格信息注入,并生成一系列具有与识别出的面部特征保真度相符的图像。直观地说,这种多样性至少包括以下三个方面:

  • 风格的多样性,生成的图像必须符合提示所指示的风格
  • 面部角度的多样性,表示能够产生该人物的各种面部姿势的图像
  • 表情的多样性,指生成该人物展示一系列不同表情或情绪的图像的能力。

一个直观的方法是学习输入面部图像在文本空间中的特征,并将这些特征嵌入到Stable Diffusion的生成引导过程中,以便可以通过一个特定的标识词控制该人物的图像生成。然而,正如一些研究所指出的,仅使用文本空间embedding会限制生成图像的最终质量。导致这种陷阱的一个潜在原因可能是文本空间特征在捕获身份(ID)特征方面的限制。因此,必须通过基于图像特征的引导来补充文本条件引导,以增强图像生成能力。

常用的通用CLIP图像编码器和来自人脸识别网络的特征向量编码器都与输入图像的非身份(non-ID)信息(如面部姿势和表情)有很强的绑定。这种绑定导致生成的图像在人物级别缺乏多样性,如下图3所示。为了解决这个问题,本文提出了混合面部特征模块(MFF)。该模块旨在在扩散模型的生成过程中控制ID和非ID特征的解耦,从而实现生成具有增强多样性的图像。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

混合面部特征(MFF)

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

这个丰富的特征是从同一身份的多个图像中获得的,因此它们的共同特征(即身份信息)将得到极大增强,而其他特征(如任何特定图像的面部角度和表情)将略有削弱。因此,可以在很大程度上帮助增加生成结果的多样性。发现当N = 4时,个性化结果强大且保持身份保真度、可编辑性和面部变化。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区


个性化概念整合

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

其中,y是自注意力层的输出,S是自注意力运算符,γ是一个可学习的标量,初始化为0,β是一个常数,用于平衡adapter层的重要性。


然后,通过更新每个交叉注意力块中的键和值投影矩阵,模型能够专注于面部的视觉特征,并将它们与文本空间中的个性化概念联系起来。


面部身份损失:实验将展示通过学习混合面部特征实现的生成多样性,这会降低面部区域的正则化。然而,它也引发了保持身份的问题。因此,引入了一个面部身份损失,监督模型保留参考图像的身份。这使得模型能够生成多样的外观,同时保留身份特征。具体而言,利用了一个预训练的人脸识别模型R:

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

实验

实验设置

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区


评估指标:本文评估中的一个关键方面是生成图像中面部身份的保真度。为了量化这一点,本文计算了平均身份保持,即生成图像的面部特征与其真实对应物之间的成对余弦相似度(ID-Sim)。这个计算是使用一个预训练的人脸识别模型进行的,如[9]中所述。此外,引入了两个新的指标来评估生成图像的多样性:姿势多样性(Pose-Div)和表情多样性(Expr-Div)。

  • 姿势多样性(Pose-Div):该指标评估了生成图像与输入图像之间的面部角度差异。为了量化这种差异,计算了所有测试图像中面部角度的平均偏差。为了更好地反映实际情况,本文特别报告了俯仰角(Pose-Div pitch)和偏航角的结果(Pose-Div yaw)。这种方法能够评估模型生成具有一系列不同面部方向的图像的能力。
  • 表情多样性(Expr-Div):该指标评估了生成图像与输入图像之间的面部表情变化。利用预训练的表情分类模型,测量了整个测试数据集中具有不同表情类别的生成图像的比例。该指标中的较高值表示模型生成多样的面部表情的能力更强。

这些指标对于确定本文的方法生成的图像不仅个性化,而且在姿势和表情方面也多样化至关重要,反映了更全面的人类面部外观范围。

比较

定性结果:本文的方法与几种领先技术进行了基准比较,包括文本反演、Dreambooth、E4T、ProFusion和Photoverse,如下图5所示。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

定量结果:在定量实验中,使用三个指标评估了IDAdapter的能力:身份保持(ID-Sim)、姿势多样性(Pose-Div)和表情多样性(Expr-Div)。此外,这些模型在生成不同的面部表情和姿势方面表现不佳。因此,仅对需要进行微调的开源模型进行了Pos-Div和Expr-Div指标的评估。在这个实验中,作者选择了参数N = 4。如下表1所示,本文的方法在几乎所有指标上都取得了最高分。可以看出,IDAdapter有效地利用基础模型生成保留身份的更多样化结果。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

消融研究

如下表2和图7所示,本文的分析揭示了IDAdapter方法不同组件对生成图像质量的影响。

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

重大突破!IDAdapter:首个无需微调,单张图像生成多样和个性化头像方案(北大&格灵深瞳)-AI.x社区

身份文本Embedding的影响:当从过程中移除身份文本embedding组件(无文本Embedding)时,生成图像的身份保持明显下降。这种急剧下降表明文本条件在指导Stable Diffusion生成个性化图像方面发挥了关键作用。没有身份文本Embedding,个性化生成的基本特征几乎丧失了。


MFF视觉Embedding的移除:消除MFF(无MFF)输出的视觉Embedding组件会导致身份保持和多样性显著下降。这表明MFF模块为模型提供了丰富的身份相关内容细节。MFF对抗过拟合是至关重要的,并有助于保持基础模型生成个人多样化图像的能力。


不同N值的影响:改变训练过程中使用的图像数量N对多样性和身份保持有不同影响。在测试不同的N值后,发现N = 4提供了最佳平衡。它在保持身份相似性和增强多样性之间取得了出色的折衷。这种平衡对于生成既个性化又多样化的图像至关重要。


身份损失的影响:训练了IDAdapter(N = 4),没有使用面部身份损失(无ID损失)。模型在学习面部特征方面的表现下降,生成的面孔与输入的相似性不如加入ID损失时那样高。

结论

本文介绍了一种名为IDAdapter的方法,它是第一个能够在推理阶段使用单个输入面部图像以多种风格、角度和表情生成图像的方法,而无需进行微调,在个性化头像生成领域取得了重大突破。


本文转自  AI生成未来 ,作者:Siying Cui等


原文链接:​​https://mp.weixin.qq.com/s/SJqlXrwH49Erw24lXt2ozA​

收藏
回复
举报
回复
相关推荐