人人都是艺术家!斯坦福提出扩散自蒸馏:定制图像生成,任意上下文下扩展到任意实例! 精华
文章链接:https://arxiv.org/pdf/2411.18616
项目链接:https://primecai.github.io/dsd
亮点直击
- 提出了Diffusion Self-Distillation,一种zero-shot身份保持定制图像生成模型,能够在任何上下文下扩展到任意实例,其性能与推理阶段调优方法相当;
- 提供了一条自蒸馏pipeline,利用预训练的文本到图像扩散模型、LLMs和VLMs,完全不依赖人工参与,获取身份保持的数据配对,用于整个数据创建过程;
- 设计了一个统一的架构,用于处理涉及身份和结构保持编辑的图像到图像翻译任务,包括个性化、重光照、深度控制和指令跟随。
总结速览
解决的问题
- Text-to-image扩散模型生成效果令人印象深刻,但难以满足艺术家对精细化控制的需求。
- 在“保持身份一致性”的生成任务(如将特定概念放置于新背景)以及其他任务(如重光照)中,缺乏高质量的图像+文本配对数据来直接训练模型。
提出的方案
- Diffusion Self-Distillation:利用预训练的文本到图像扩散模型自生成数据集,用于文本条件下的图像到图像任务。
- 1.利用扩散模型的上下文生成能力生成图像网格。
- 2.使用视觉-语言模型辅助筛选,构建大规模高质量的配对数据集。
- 3.使用筛选后的配对数据集对扩散模型进行微调,将其转化为支持文本+图像条件的图像生成模型。
应用的技术
- 预训练的文本到图像扩散模型的上下文生成能力。
- 视觉-语言模型对生成数据进行筛选和过滤。
- 基于筛选数据的扩散模型微调技术。
达到的效果
- 在保持身份一致性生成任务中优于现有的零样本方法。
- 在不需要测试时优化的情况下,性能可与逐实例调优技术相媲美。
- 方法适用于多种文本条件图像生成任务,具有广泛适应性和有效性。
Diffusion Self-Distillation
最近的文本到图像生成模型提供了令人惊讶的能力,能够生成上下文一致的图像网格(见图2,左侧)。受到这一洞察的启发,本文开发了一种zero-shot适应网络,能够快速、丰富、高质量且保持身份一致性,即在参考图像的条件下生成一致的图像。首先利用预训练的文本到图像扩散模型、大语言模型(LLMs)和视觉语言模型(VLMs)生成并筛选出展示所需一致性的图像集。然后,使用这些一致性的图像集对同一预训练扩散模型进行微调,采用本文新提出的并行处理架构创建一个条件模型。通过这种方式,Diffusion Self-Distillation以监督方式将预训练的文本到图像扩散模型微调为zero-shot定制图像生成器。
生成配对数据集
为了创建用于监督Diffusion Self-Distillation训练的配对数据集,利用预训练的文本到图像扩散模型的新兴多图像生成能力,生成可能一致的基础图像,这些图像由LLM生成的提示创建。然后,使用VLMs筛选这些基础样本,获得共享所需身份一致性的干净图像集。数据生成和筛选pipeline如下图2左侧所示。
通过教师模型生成基础数据
为了生成符合所需身份保持的图像集,我们提示预训练的教师文本到图像扩散模型创建包含多个面板的图像,每个面板展示相同的主题,并在表情、姿势、光照条件等方面有所变化,用于训练目的。这种提示可以简单地指定输出中的身份保持要求,如“一个包含4张图像的网格,展示相同的<物体/角色/场景等>”,“4个均匀分隔的面板,描绘相同的<物体/角色/场景等>”等。还会指定每个子图像/面板中的预期内容。完整的提示集在我们的补充材料第A节中提供。分析表明,目前最先进的文本到图像扩散模型(如SD3、DALL·E 3、FLUX)展示了这一身份保持能力,这可能源于它们的训练数据,包括漫画、漫画书、照片集和视频帧。这种上下文生成能力对于我们的数据生成流程至关重要。
通过LLMs生成提示
依赖LLM来“头脑风暴”生成一个多样化的提示大数据集,从中提取我们的图像网格数据集。通过定义提示结构,提示LLM生成描述图像网格的文本提示。遇到的一个挑战是,当提示生成大量提示时,LLM往往生成低多样性的提示。例如,如果没有额外的引导,GPT-4o倾向于生成包含汽车和机器人内容的提示,导致输出内容高度重复。为了解决这个问题,利用LAION数据集中的可用图像标题,将它们作为内容参考输入到LLM中。这些来自真实图像标题的参考大大提高了生成提示的多样性。还可以选择使用LLM过滤这些参考标题,确保它们包含明确的身份保持目标。我们发现,这显著提高了生成一致的多图像输出的命中率。
使用VLMs进行数据筛选和标题生成
尽管上述数据生成方案提供了具有良好质量和数量的身份保持的多图像样本,但这些初步的“未经筛选”图像通常噪声较多,不适合直接使用。因此,利用VLMs的强大能力来筛选出清洁的数据集。从生成的样本中提取出意图保持身份的一对图像,并询问VLM这两张图像是否描绘了相同的物体、角色、场景等。我们发现,在这种情况下,使用思维链(Chain-of-Thought)提示特别有帮助。具体而言,首先提示VLM识别两张图像中共同存在的物体、角色或场景,然后让其详细描述每一张图像,最后分析它们是否相同,给出结论性回答。这个过程产生了共享相同身份的图像对。
并行处理架构
需要一个适用于通用图像到图像任务的条件架构,包括结构保持变换和保持概念/身份但不保持图像结构的变换。这是一个具有挑战性的问题,因为它可能需要转移精细细节,而不保证空间对应关系。尽管ControlNet架构在结构保持编辑(如深度到图像或分割图到图像)方面表现出色,但在更复杂的身份保持编辑下,它难以保持细节,其中源图像和目标图像没有像素对齐。另一方面,IP-Adapter可以从输入图像中提取某些概念,如风格,但它强烈依赖于任务特定的图像编码器,并且常常无法保持更复杂的概念和身份。受到多视角和视频扩散模型成功的启发 ,本文提出了一种简单而有效的方法,将基础扩散变换器模型扩展为图像条件扩散模型。具体而言,我们将输入图像视为视频的第一帧,并生成一个两帧的视频作为输出。最终的损失是在两帧视频上计算的,建立了第一帧的身份映射和第二帧的条件编辑目标。我们的架构设计使其对于通用的图像到图像翻译任务具有普遍性,因为它能够有效地在两帧之间交换信息,使模型能够捕捉复杂的语义并执行复杂的编辑,如图2右侧所示。
实验
实现细节 使用FLUX1.0 DEV作为教师模型和学生模型,实现自蒸馏。为了生成提示,使用GPT-4o;用于数据集筛选和标题生成,使用Gemini-1.5。在8个NVIDIA H100 80GB GPU上训练所有模型,采用160的有效批量大小进行100k次迭代,使用AdamW优化器,学习率为10^-4。并行处理架构使用LoRA,基模型的秩为512。
数据集 最终训练数据集包含约40万个主题一致的图像对,这些图像是从我们的教师模型FLUX1.0 DEV生成的。数据集的生成和筛选是完全自动化的,不需要人工干预,因此其规模可以进一步扩展。使用公开的DreamBench++数据集并遵循其评估协议。
DreamBench++是一个综合性且多样化的数据集,用于评估个性化图像生成,包含150张高质量图像和1,350个提示,比以前的基准(如DreamBench)要多得多。该数据集涵盖了各种类别,如动物、人物、物体等,包括照片写实和非照片写实图像,且提示设计涵盖不同难度级别(简单/富有创意)。相比之下,提示是使用GPT-4o生成的,并通过人工标注员进行精炼,以确保多样性和伦理合规性。
基准 遵循DreamBench++的设置,将我们的模型与两类基准进行比较:推理阶段调整模型和zero-shot模型。对于推理阶段的模型,将其与Textual Inversion、DreamBooth及其LoRA版本进行比较。对于zero-shot模型,与BLIP-Diffusion、Emu2、IP-Adapter、IP-Adapter+进行比较。
评估指标 先前工作的评估协议通常包括比较CLIP和DINO特征相似度。然而,上述指标仅捕捉到全局语义相似度,且噪声非常大,容易偏向于“复制粘贴”输入图像。这在输入图像或提示较为复杂时尤其成问题。参考DreamBench++中的详细分析,指出了这些指标的局限性。因此,遵循DreamBench++设计的指标,并报告GPT-4o在更为多样化的DreamBench++基准上针对不同类别主题的概念保持(CP)和真实(Real.)与富有创意(Imag.)提示下的提示遵循(PF)的得分,最后用其乘积作为最终评估得分。该评估协议模拟了使用VLMs的人类用户研究。此外,对GPT评估提示进行了轻微修改,以便在生成的内容未显示出内部理解和创意输出,而是天真地复制了参考图像中的组件时,可以应用惩罚。这些修改后的指标被命名为“去偏概念保持(Debiased CP)”和“去偏提示遵循(Debiased PF)”。完整的GPT评估提示集将在我们的补充材料Sec. B中提供。
定性结果下图4展示了定性比较结果,表明本文的模型在主题适应性和概念一致性方面显著优于所有基准,同时在输出中表现出出色的提示对齐性和多样性。作为早期概念提取方法的Textual Inversion仅捕捉到输入图像中的模糊语义,因此不适用于需要精确主题适应的zero-shot定制任务。DreamBooth和DreamBooth-LoRA在保持一致性方面面临挑战,主要因为它们在多张输入图像下表现更好。这一依赖性限制了它们在仅有单张参考图像时的有效性。相反,本文的方法即使只使用一张输入图像,也能取得稳健的结果,突显了其效率和实用性。
BLIP-Diffusion 作为一个自监督表示学习框架,可以以zero-shot方式从输入中提取概念,但仅限于捕捉整体语义概念,无法定制特定主题。同样,Emu2作为一个多模态基础模型,擅长提取语义概念,但缺乏针对特定主题定制的机制,限制了它在个性化图像生成中的应用。IP-Adapter和IP-Adapter+ 采用自监督学习方案,旨在通过编码信号重建输入。虽然在提取全局概念方面有效,但它们遭遇了明显的“复制粘贴”效应,生成的图像与输入非常相似,缺乏有意义的转化。值得注意的是,IP-Adapter+ 利用更强的输入图像编码器,导致这一问题加剧,输出的多样性和适应性降低。
与之相比,本文的方法有效地保留了主题的核心身份,同时允许多样且符合上下文的转化。如下图5所示,扩散自蒸馏方法展示了出色的多功能性,能够熟练处理各种定制目标(角色、物体等)和风格(照片写实、动画等)。此外,扩散自蒸馏能够很好地推广到各种提示,包括与InstructPix2Pix类似的指令,进一步证明了它在各种定制任务中的鲁棒性和适应性。
定量结果与基准模型的定量比较见下表1,报告了按照DreamBench++的GPT评估结果。该评估协议类似于人工评分,但使用自动化的多模态大语言模型(LLMs)。我们的模型在概念保持和提示跟随方面均表现最佳,仅在概念保持方面略逊于IP-Adapter+(主要由于“复制粘贴”效应),在提示跟随方面则略逊于每实例调整的DreamBooth-LoRA。
DreamBench++的概念保持评估仍然偏向于支持“复制粘贴”效应,尤其是在更具挑战性和多样性的提示上。例如,IP-Adapter系列在概念保持方面的优异表现,主要得益于其强大的“复制粘贴”效应,该效应直接复制输入图像,而未考虑提示中的相关变化。这也部分体现在其较差的提示跟随得分上,表明它们偏向于参考输入,未能有效适应输入提示。因此,我们还展示了“去偏”版本的GPT得分,简单地要求GPT对生成的图像与参考图像过于相似的情况进行惩罚。IP-Adapter+ 的优势不再显现。总体而言,Diffusion Self-Distillation是表现最好的模型。
消融研究
- 数据整理:在数据集生成过程中,首先使用冻结的预训练FLUX模型合成网格,然后通过VLM整理筛选图像。为什么不对FLUX模型进行微调以提高命中率?为了解决这个问题,使用超过7000个一致性网格拟合了LoRA(下图6左)。尽管更多的样本是一致性网格,但发现教师模型失去了输出的多样性。因此,选择完全依赖VLMs帮助我们从大量多样但潜在噪声的网格中进行整理。
- 并行处理架构:将并行处理架构与三种替代的图像到图像架构进行比较:1)将源图像与噪声图像进行拼接(“拼接”);2)基于ControlNet的设计;3)基于IP-Adapter 的设计。使用与并行处理模型相同的数据训练每个架构(图6中)。对于ControlNet,得出与先前工作 [14]相同的结论,它在结构对齐编辑时表现最好,但当源图像和目标图像的相机姿势不同时,通常难以保持细节。IP-Adapter由于其图像编码器的容量限制,在有效传递源图像的细节和风格方面存在困难。
- 其他图像到图像任务:尽管不是“自蒸馏”,因为它需要外部来源的配对数据集(通过Depth Anything生成),我们还在深度到图像任务上训练了我们的架构,以展示其在更一般的图像到图像任务中的应用(图6右)。
用户研究为了评估本文生成图像的保真度和提示一致性,在DreamBench++测试集的一个随机子集上进行了用户研究,选取了20个样本。共有25名女性和29名男性标注员,年龄从22岁到78岁(平均34岁),独立地根据以下三个标准对每个图像进行1到5分的评分:(1)概念保持—与参考图像的一致性;(2)提示一致性—与给定提示的一致性;(3)创造力—内部理解和转化的水平。
下表2中展示了平均分数。人工标注与GPT评估结果高度一致,表明Diffusion Self-Distillation在概念保持方面略逊于IP-Adapter+,在提示一致性方面略逊于推理阶段调优方法DreamBooth-LoRA。值得注意的是,本文的模型在创造力评分上取得了最高分,而IP-Adapter+由于其“复制粘贴”效应,在这一指标上得分较低。这些结果进一步确认了Diffusion Self-Distillation提供了最平衡且优越的整体表现。
讨论
本文提出了Diffusion Self-Distillation,这是一种zero-shot方法,旨在使用文本到图像的扩散模型,在无需人工干预的情况下实现广泛上下文中的身份适应。本文的方法有效地将zero-shot定制图像生成转化为监督任务,显著降低了其难度。实证评估表明,Diffusion Self-Distillation在保持zero-shot方法效率的同时,与推理阶段调优技术相当。
局限性与未来工作
本文的工作专注于角色、物体和场景重光的身份保持编辑。未来的方向可以探索更多任务和应用场景。例如,与ControlNet的集成可以提供身份和结构的细粒度独立控制。此外,将我们的方法从图像扩展到视频生成是未来工作的一个有前景的方向。
结论
Diffusion Self-Distillation使内容创作普适化,能够进行身份保持、高质量且快速的定制图像生成,并能够无缝适应不断发展的基础模型,极大地拓展了艺术、设计和数字故事讲述的创造性边界。
本文转自AI生成未来 ,作者:AI生成未来