扩散模型中进行条件插值?AID:无需训练,保证一致、平滑和保真度(新加坡国立&南洋理工)
文章链接:https://arxiv.org/pdf/2403.17924
代码&demo:https://github.com/QY-H00/attention-interpolation-diffusion
条件扩散模型可以在各种设置中创建未见过的图像,有助于图像插值。潜在空间中的插值已经得到了深入研究,但是带有特定条件(如文本或姿态)的插值则了解较少。简单的方法,比如在条件空间中进行线性插值,通常会导致图像缺乏一致性、平滑性和保真度。为此,本文引入了一种新颖的无需训练的技术,名为通过扩散进行注意力插值(AID)。
主要贡献包括:
- 提出了内/外插值注意力层;
- 将插值关注与自注意力融合,以提高保真度;
- 应用贝塔分布进行选择,增加平滑度。
本文还提出了一种变体,称为通过提示引导的注意力插值(PAID),它将插值视为一种条件相关的生成过程。这种方法使得可以更一致、更平滑、更高效地创建新的图像,并能够对插值的确切路径进行控制。我们的方法在概念和空间插值方面表现出了有效性。
介绍
在生成模型的潜在空间中进行插值,例如变分自编码器(VAEs)、生成对抗网络(GANs)和扩散模型已经得到了广泛的研究。插值允许模型在潜在空间内从一个种子到另一个种子生成平滑过渡的图像,从而促进了诸如图像属性修改、数据增强和视频插值等应用。最近对文本到图像扩散模型的研究进展表明其能够生成受文本描述条件约束的高质量图像。与潜在空间插值不同,插值在条件空间内进行,本例中是文本,仍然相对未被深入研究。本文探讨了在扩散模型环境中如何在不同条件之间进行插值的新问题,例如在扩散模型的背景下的“一辆卡车”和“一只猫”。
最相关的工作涉及使用扩散模型进行两个真实世界图像之间的插值。他们将图像描述为文本,然后在文本embedding空间内采用线性插值对两个图像进行插值。然而,当概念显著不同时,这种方法可能失败,因此强调了任务的固有难度,如下图2中的第一行所示。
我们确定了条件空间插值面临的三个主要挑战:确保主题一致性(避免不相干的过渡,例如“狗”通过“碗”变成“猫”)),在相邻图像之间确保平滑的视觉过渡,并获得高质量的插值图像。基于这三个挑战,制定了条件插值的任务,并提出了三个评估指标:一致性、平滑性和保真度。
为了解决这些问题,引入了一种新颖的框架,即扩散注意力插值(AID),它包括几项创新,以增强条件插值的质量:
- 用双(内部/外部)插值注意力机制替换标准注意力,以保持来自两个源图像的关键视觉特征,从而提高一致性;
- 将插值注意力与自注意力相结合,进一步增强一致性和图像保真度;
- 提出沿插值路径的贝塔分布选择以增加平滑度。
- 还将插值重新构想为一种条件相关的生成过程,并引入了通过提示引导的扩散注意力插值(PAID)。
我们的方法无需训练,实验结果表明,它显著增强了在各种条件下插值序列的平滑性、一致性和保真度,如下图1、5和6所示。
AID能够有效地管理不同概念或空间布局之间的插值,使用内部或外部插值注意力,并可以通过提示指导进行进一步定制,正如我们的结果所示。
主要贡献:
- 在文本到图像扩散模型的环境中制定了条件插值的新问题,并提出了三个评估指标以评估一致性、平滑性和保真度。
- 引入了一种新颖的zero-shot方法,称为扩散注意力插值(AID),其中包括融合的内部/外部插值注意力机制和贝塔先验选择,以提高插值序列的质量。AID可以通过提示引导插值(PAID)来进一步控制两个条件之间的特定路径。
- 通过广泛的实验证明,AID显著改善了插值序列的定性和定量指标,插值序列的保真度、一致性和平滑度均有显著提升。
相关工作
扩散模型和注意力操纵
扩散模型的出现显著改变了文本到图像合成领域,确保了图像质量的提升,并且与文本描述更好地对齐,正如最近的研究所证实的。注意力操纵技术在释放扩散模型潜力方面发挥了关键作用,特别是在修复和组合对象生成等应用中。这些应用从对注意力图的精细控制中获益,使修饰符与目标对象更紧密地对齐,从而增强图像的一致性。此外,跨帧注意力机制已显示出在利用扩散模型的视频生成框架中增强视觉一致性的潜力。这一系列工作表明了一个值得注意的假设:两个生成图像的视觉接近程度可能反映在它们各自注意力图的相似性上。这也激发了我们从注意力机制的角度研究插值的动机。
图像生成模型中的插值
在生成模型的潜在空间内进行插值,例如生成对抗网络(GANs)和变分自编码器(VAEs),已经得到了广泛的研究。最近的进展将这种探索扩展到了扩散模型的潜在空间,实现了更真实的真实世界图像之间的插值。然而,迄今为止的工作仅限于单一条件,缺乏专注于在不同条件下进行插值的研究。王等人探索了在文本embedding中进行线性插值的用法,以插值真实世界图像,然而这种方法通常会导致图像的保真度和平滑度降低。这一研究空白突显了对生成模型内条件插值进一步探索的需求,可能扩展其在各个领域的适用性。
前提和分析
前提条件
插值。插值在计算机图形学中已经得到了广泛研究。在本文中,主要关注张量之间的线性插值。给定张量A和张量B,线性插值路径r(t),其中t ∈[0,1],定义为:
通常,为了离散化插值路径,先前的工作[14, 30, 36, 39, 44]采用均匀分布的点来提供插值序列。形式上,给定大小为m,序列表示为:
条件插值的问题形式化
感知平滑性。在先前在潜在空间进行插值的工作中,通常忽视了平滑性。他们的主要重点是评估连续的感知路径,其中PPL既表示一致性又表示平滑性。然而,在考虑离散插值序列时,情况并非如此。例如,如果序列中的所有插值图像都相同,则序列不平滑,但一致性值较低。因此,我们需要一个独特的指标来评估平滑性。
其中模型Mv是一个视觉Inception模型。FID评估了插值图像的感知特征分布与源图像的差异程度。我们的制定与先前的研究有所不同,重点在于对离散样本的评估,即插值序列,而不是连续的插值路径。这是至关重要的,因为插值序列的质量不仅取决于插值路径的质量,还取决于如何选择插值路径上的确切样本,而先前的方法忽视了这一点。此外,在实际使用中,插值序列的大小通常较低。因此,我们的评估框架专门设计用于插值序列。
这三个指标定量评估了插值序列的质量。下面描述这些评估指标如何反映这一任务的挑战。
朴素条件插值的失败
条件插值最基本的方法是在编码的条件空间内应用线性或球面插值。例如,[42]在不同的文本embedding和姿态之间进行插值,而[16]在编码不同风格的向量之间进行插值。我们观察到三个问题使得这样的方法存在问题,导致结果具有较差的一致性、平滑性和保真度。
问题1:间接路径。通过文本embedding空间的路径与视觉空间中的自然路径不一致,导致一致性降低。例如,从“一个苹果”到“一张床”之间的插值可能会经过像“一张凌乱的草图”之类的中间阶段。
问题2:非均匀过渡。文本embedding空间不能保证是均匀的,导致在选择均匀分布点进行插值序列时出现非平滑的视觉过渡。出现在生成模型训练数据集中频率较高的条件将主导插值路径。为了验证,我们在Stable Diffusion模型的训练中,对一个罕见概念和一个常见概念之间进行插值。以从“氧气面罩”,一个罕见概念,到“狮子”的插值序列为例,大多数插值图像受“狮子”的影响。
问题3:通常质量低。插值的文本embedding可能与现有文本不对应,这意味着它可能与原始文本embedding的分布存在显著偏差,从而导致图像质量较低。这种现象也存在于从“一个苹果”到“一张床”的插值中,插值图像的保真度与原始图像相比降低。下图2中从第二列到第五列的插值路径中的图像质量下降就是一个例子。
进行了大量实验来进一步验证这些观察结果。这些问题激发了我们提出相应方法来解决这些问题。
方法论
为了解决前面提到的问题,提出了相应的方法来解决其中的每一个问题:
- 插值注意力以增强感知一致性;
- 融合自注意力以增强保真度;
- 引入Beta先验以增强平滑度。
- 超越对特定插值序列质量的定量评估指标,我们将插值重新建立在文本描述上,并提出用提示引导插值。
下面分别详细描述每个组件。
内/外插值注意力机制
其中,Attn是注意力层。将这种插值称为内插值注意力,因为它分别对关键词和值进行插值。
在注意力机制内部的插值可以以两种形式实现:要么通过内插值注意力,如方程9所示,要么通过插值注意力过程的输出(上下文向量),我们称之为外插值注意力。后者可以形式化为:
方程9中的内插值注意力和方程10中的外插值注意力之间的区别在于它们的值向量:方程9利用相同的注意力映射来处理V1和Vm,而方程10使用来自不同来源的值向量的不同注意力映射。展示了每种方法在前面中不同指标上的优势。观察到内部注意力插值更适合进行概念插值,而外部注意力插值更适合进行空间插值。在附录A中通过数学归纳和更多的定性结果展示了这两种实现之间的差异。在实践中,将AID-O作为默认选择,并建议仅在有提示指导的情况下使用AID-I。
融合自注意力
简单地应用注意力插值可以极大提高效率。然而,插值序列仍然缺乏保真度,与前面提出的质量问题相呼应。我们假设原因是完全替换了自注意力机制,尽管自注意力被认为对生成图像的质量至关重要。因此,我们将插值潜在变量的关键词和值与自注意力机制进行了融合,通过串联,将其纳入到方程9和方程10中,从而实现了融合注意力插值。形式上,内插值注意力的融合版本可以表示为:
外插值注意力的融合版本可以表示为:
融合注意力插值显著提高了一致性和保真度。
使用Beta先验进行序列选择
为了找到最佳的超参数α和β,在α和β上应用贝叶斯优化来优化生成的插值序列的一致性。
提示引导
我们的一个洞见是,考虑到两个源图像,插值路径的假设空间实际上是庞大且多样的,然而大多数插值方法提供了两个源图像之间的确定性路径。这自然引出了一个问题,即如何控制我们想要的插值路径。
注入引导提示作为条件。幸运的是,由于我们将插值机制纳入原始的自注意力层中,我们不再需要依赖于沿着文本embedding的插值。相反,我们用引导提示的文本embedding替换插值图像的原始文本embedding。假设从引导提示获取的关键词和值分别为Kg和Vg。通过提示进行引导是通过将原始的文本-图像交叉注意力替换为:
在实践中,用户提供引导提示以选择基于文本描述的插值路径,如前面图1(f)所示。令人惊讶的是,我们观察到,引导提示的注意力插值使模型能够生成一些原本不存在的组合场景(请参见下图4中“飞机和鹿”的示例)。
插值和引导之间的权衡的预热步骤。我们观察到,去噪的早期步骤对于确定生成图像的空间布局至关重要。因此,可以通过设置预热步骤的数量在插值效果和提示引导之间进行权衡。在进行了几个预热步骤之后,将注意力插值转变为一个简单的生成过程。
实验
实验设置
评估协议。根据一致性、平滑度和保真度来评估我们的方法,对于每个数据集的实验,每次运行5次试验,每次试验运行N = 100次迭代。在每次迭代中,随机选择两个条件,并生成大小为m = 7的插值序列。然后根据所有插值序列的平均值来评估插值方法。对于一致性和平滑度,遵循常规设置,并选择VGG16来计算LPIPS。对于保真度,根据先前的文献,使用谷歌v3 Inception模型来计算源图像和插值图像之间的FID。将所有迭代和试验的平均值报告为最终结果。
推理配置。将 Stable Diffusion 1.4 作为基本模型来实现注意力插值机制。除了替换注意力模块外,保持其他设置与原始模型相同。在所有实验中,图像大小为512x512,使用DDIM调度器进行生成,包括25个时间步长。
选择配置。在对beta先验中的α和β进行贝叶斯优化之前,将插值序列的平滑度设置为目标指标,将两个超参数的范围设置为[1,30],使用9个固定探索,其中α和β从{20,25,30}中选择,以及15次迭代进行优化。
数据集。使用来自各种数据集的语料库来评估我们提出的框架在不同文本条件下的性能。
CIFAR-10:CIFAR-10数据集包括60,000个32x32的彩色图像,分布在10个类别中。该数据集通常用于对分类算法进行基准测试。在我们的上下文中,使用类名作为提示来生成与特定类别相对应的图像。CIFAR-10语料库有助于评估我们的框架PAID在处理描述明确的简短提示时的有效性。
LAION-Aesthetics:从更大的LAION-5B收集中抽样了LAION-Aesthetics数据集,该数据集的美学评分超过6分,经过筛选,视觉质量很高。与CIFAR-10不同,该数据集为图像提供了广泛的真实标注,包括长篇且不太直接的描述。这些特点为基于文本的分析提供了更复杂的挑战。我们使用该数据集来测试我们的框架在更具挑战性的场景中的插值能力。
比较方法。据我们所知,唯一的相关方法是 [44],该方法对实际图像插值使用了文本embedding的线性插值。将其称为文本embedding插值。此外,还与另一种方法进行比较,称为去噪插值,该方法沿着去噪计划进行插值。具体来说,给定提示A和提示B以及去噪步骤数N,对于插值系数t,我们在前⌊tN⌋步中使用提示A进行引导,并在其余步中使用提示B进行引导。在我们的框架内,基于内部注意力插值标记为"AID-I"和外部注意力插值标记为"AID-O"进行比较。
定性结果
对于定性分析,观察到AID-I更倾向于在概念或风格上进行插值。另一方面,AID-O强烈增强了感知一致性,并鼓励在图像的空间布局中进行插值,如下图5所示。即使在两个非常长的提示之间进行插值,我们的方法也能够实现直接而平滑的插值,保真度很高,如下图6所示。
定量结果
根据前面的评估协议定量评估我们的方法,如下表1所示。
发现AID-O在所有评估指标上的性能都有显著提高。虽然AID-I在平滑度方面表现最好,但AID-O在一致性方面有显著提高(在CIFAR-10上为-20.3%,在LAION-Aesthetics上为-23.9%),并且在保真度方面也有显著提高(在CIFAR-10上为-66.62,在LAION-Aesthetics上为-60.37)。观察到AID-I的保真度不及AID-O,甚至不如去噪插值。然而,当与提示引导相结合时,AID-I的定性结果更好,在附录D中展示了更多细节。我们建议在没有提示引导时使用AID-O,在有提示引导时使用AID-I。
还观察到,LAION-Aesthetics的结果通常比CIFAR-10差,因为长提示插值更具挑战性。尽管如此,我们的方法与文本embedding插值相比仍然有很大的改进。
消融研究
对应用于CIFAR-10数据集的AID-O框架进行了消融研究,重点关注AID的三个主要设计元素:注意力插值、自注意力和使用beta先验进行选择,如表2所总结的那样。需要注意的是,与自注意力的融合不能单独运行;因此,它总是与注意力插值结合使用。
从下表2可以看出,beta先验有助于增加平滑度。
来自Beta先验对平滑度的边际贡献分别为0.0464(文本embedding插值)、0.0671(与注意力插值一起)、0.1595(与融合注意力插值一起)。此外,注意力插值提高了一致性,将指标从0.3645降低到0.3201,与文本embedding插值相比有所改善。在与自注意力的融合的情况下,我们观察到保真度有所提高,指标分别从101.89提高到52.51,从155.01提高到51.43。
显然,虽然具有beta先验的注意力插值(不与自注意力融合)在平滑度上实现了最佳表现,但代价是保真度较低,生成的图像往往质量较差,如表2中定量展示的和图7中定性展示的。
同样地,尽管没有 beta 先验的 AID 实现了最佳的一致性结果,但在平滑度方面有过多的折衷(0.6236),如下图7所示。
结论
本研究引入了一个新颖的任务:在扩散模型中进行条件插值,以及评估指标,包括一致性、平滑度和保真度。我们提出了一种新颖的方法,称为AID,旨在在不同条件下生成图像之间的插值。通过定性和定量分析,展示了这种方法在性能上显著超越了基线,而且无需训练。此外,介绍了PAID,这是一种扩展,允许用户使用引导提示来选择插值路径。我们的方法无需训练,拓展了生成模型插值的范围,为各种应用提供了新的机会,例如组合生成、图像编辑、数据增强和视频插值。
本文转自 AI生成未来 ,作者:Qiyuan He等