超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整

发布于 2024-11-28 09:48
浏览
0收藏

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

文章链接:https://arxiv.org/pdf/2411.15034
项目链接:https://yuci-gpt.github.io/headrouter/

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

亮点直击

  • 提供了对不同注意力头对各种编辑语义的影响的深入分析,以及在无交叉注意力的MM-DiTs中,文本和图像token之间的相互作用。
  • 提出了HeadRouter,这是一种适用于MM-DiTs的新型图像编辑方法,其中包括一个实例自适应Router,用于增强关键注意力头的语义表示,以及一个双重token优化模块,用于精确的文本引导和关键区域表达。
  • 在多个文本引导的图像编辑基准测试上的实验评估表明,本文的方法在不同任务中提供了更精确的区域、语义和属性级别的编辑效果,超越了现有的最先进基线方法。

总结速览

解决的问题
MM-DiTs(多模态扩散Transformer)在文本引导的图像编辑任务中面临显著挑战。与UNet结构不同,MM-DiTs缺乏明确且一致地结合文本引导的能力,导致编辑结果和文本之间存在语义不一致。

提出的方案
本研究提出了HeadRouter框架,通过自适应地将文本引导Router到MM-DiTs中的不同注意力头,从而编辑源图像。该框架无需训练即可实现图像编辑。此外,研究还提出了双重token优化模块,用于细化文本和图像的token表示,以提供精确的语义引导和准确的区域表达。

应用的技术

  • HeadRouter:一种无需训练的图像编辑框架,基于自适应文本引导Router。
  • 双重token优化模块:优化文本和图像token表示以提高语义精度。

达到的效果
在多个基准测试上的实验结果表明,HeadRouter在编辑忠实度和图像质量方面表现出色。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

方法

本文主要提出了两种技术:实例自适应注意力头Router(Instance-adaptive Attention Head Router),通过识别和强调最有效的注意力头来提高目标编辑语义的表示;以及双重token优化模块(Dual-token refinement module, DTR),通过将文本的注意力权重应用到图像token上来精炼关键图像token的编辑。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

实例自适应注意力头Router

基于对注意力头对不同编辑语义的敏感性分析,目标是识别并强调最有效的注意力头,用于特定的编辑任务。通过利用图像重建分支的信息,我们引导图像编辑分支专注于最相关的注意力头,从而提高编辑效果。


首先识别有效的注意力头。方法的关键在于识别哪些注意力头对所需的编辑语义最敏感。给定一个具有 H 个注意力头的 DiT 模型,我们首先计算在生成有和没有特定语义的图像时,相应注意力头输出的余弦相似度。设  和  分别表示重建分支和编辑分支中第 h 个注意力头的输出特征,头 h 的余弦相似度  计算公式为:

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

其中 "·" 表示点积,|| · || 表示欧几里得范数。

为了量化每个注意力头对特定语义的敏感性,并在单步中对不相似度得分进行归一化,设计了归一化不相似度得分 作为:

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

其中

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

这个归一化得分 反映了每个注意力头的输出与特定语义的不同程度,依据所有注意力头中观察到的不相似度范围。


为了平滑地激活最敏感的语义注意力头,提出了一个实例自适应注意力头Router(IARouter),它应用于不同注意力头的输出特征。IARouter 的设计目标是:(1) 强调不相似的头:为具有较低 的头分配较高的注意力,以突出它们在表示所需编辑语义中的重要性;(2) 维持相似的头:确保与编辑不太相关的头的贡献不会被过度改变,从而保持图像中其他视觉方面的完整性;(3) 平滑权重:通过防止突变的权重变化避免伪影,并保持模型稳定性。

基于这些目标,IARouter 使用软激活注意力头。头 h 的权重  定义为:

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

其中 γ 是最大权重增量,k 控制 sigmoid 曲线的陡峭度,δ 移动 sigmoid 的中心,σ(x) 是定义为:

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

在图像生成过程中,将每个注意力头的输出乘以其对应的权重,以获得增强后的输出。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

提出的 IARouter 作为一种平滑的语义特定增强器,通过识别和强调对特定语义敏感的注意力头,IARouter 能够实现更精确和有效的编辑。使用 sigmoid 函数可以使权重逐渐增加,从而避免突然的变化可能引入的伪影。

双token优化模块

文本token与图像token之间的注意力权重反映了文本提示对每个图像token的影响。我们利用这些权重将编辑聚焦在与期望语义对应的关键图像区域,从而进行语义优化。此外,提出修改注意力归一化以增强重要文本token对图像token的影响。

面向语义的图像token增强
MM-DiTs 的自注意力机制生成的注意力权重反映了文本token对图像token的影响。具体来说,对于每个图像token,与文本token相关的注意力权重指示了该图像token关注每个文本token的程度。利用这一特性来识别并聚焦于受到编辑提示影响最大的图像token。设  表示从文本token到图像token的注意力权重矩阵,其中  是图像token的数量, 是文本token的数量。元素  表示从文本token  到图像token  的注意力权重。


我们提出了面向语义的图像token增强方法,以聚焦编辑关键图像token,同时考虑文本对不同图像token的影响。形式化地,权重映射定义为:

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

其中, 表示第  个文本token对第  个图像token的注意力权重。我们使用基于 softmax 的函数对图像token的注意力权重进行归一化,并使用 sigmoid 函数限制大权重的增长。 是权重增强系数, 用于幅度调整。关于  和  影响的进一步讨论可以在补充材料中找到。


接下来,我们使用归一化权重  对编辑分支中的图像token进行重新加权。最终的图像token  计算公式为:

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

这种公式确保了受到文本提示高度影响的图像token(具有更高的 )被赋予更高的权重,而受影响较小的token则保持接近原始值。

基于残差的文本token增强

由于文本token与图像token之间的注意力权重在连续的注意力块中逐渐衰减,我们利用残差文本token在每个 Transformer 块中保留文本引导。具体而言,该设计将前一注意力块的文本引导传递到当前块中。随着信息在更深的块中传播,前一块的输入被作为残差项,并与当前块的输入相结合,从而增强文本引导的连续性。此机制在每个块中引入一致的文本信息,加强了文本引导,并提高了图像编辑的准确性。

实验

实现细节
实验中,使用 Flux-1.0[dev] 及其默认超参数,并利用 RF-Inversion 将真实图像逆映射到其潜在空间,同时遵循其基本设置。


基线方法将本文的方法与七种最先进的文本引导图像编辑方法进行了比较,包括两种基于 Flux 的方法:RF-Inversion 和 SDEdit,以及五种基于 UNet 的方法:结合 Prompt-to-Prompt 的 Null-textual Inversion、Instruct-Pix2Pix、MasaCtrl、InfEdit 和 LEDITS++。所有这些方法都无需训练。

数据集
在两个文本引导图像编辑基准数据集上评估了本文的方法与基线方法:

  1. TEDBench++:这是 TEDBench 的修订扩展版,共包含 120 个实体。
  2. PIE-Bench:该数据集由 700 张图像组成,每张图像都对应 10 种不同的编辑类型。

评价指标
根据以往的文本引导图像编辑工作,从三个指标评估所提出的方法:整体图像质量、与文本引导的对齐程度以及与源图像的结构一致性。具体来说,我们使用 LPIPS 评估整体质量,使用 CLIP-T 测量文本对齐程度,并使用 DINO 评估与原始图像的结构一致性。此外,还进行用户研究以进一步评估性能。

定性比较

在下图 6 中,展示了不同编辑类型与基线方法的可视化结果。SDEdit 能够在文本条件下生成新概念(例如,海洋、剪纸风格),但难以保持源图像的语义信息(如第 2 行和第 3 行)。P2P+NTI 难以实现令人满意的图像编辑结果,往往忽略了文本条件中包含的信息(如第 1 ∼ 3 行)。Instruct-Pix2Pix 同样在涉及显著变化的图像编辑指令上表现不佳,导致语义丢失(如第 1 行)或编辑不准确(如第 2、4 和第 5 行)。MasaCtrl 和 InfEdit  同样未能准确保留源图像的语义(如第 3 行)以及编辑不准确(如第 1、2 和第 5 行)。LEDITS++ 在实验中实现了改变图像风格的编辑效果,但在特定语义编辑上仍存在问题(如第 1、2、4、5 行),同时源图像细节丢失(如第 3 行)。RF-inversion 难以实现稳健的图像编辑效果,导致部分输出与源图像几乎相同(如第 3 和第 5 行)。本文的方法在结构保留和编辑效果上均表现最佳,超越了基线方法的性能。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

定量比较

下表 1 展示了定量比较结果,包括编辑图像与源图像之间的结构对齐、编辑图像与文本引导之间的对齐以及整体生成质量。还针对八种不同的编辑类型评估了图像与文本的对齐。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

如下图 5 的雷达图所示。在“更改内容”类别中,尽管 InfEdit 和 LEDITS++ 的某些指标与我们的结果相当,但其文本对齐显著较低,表明这些方法未能实现有效的“更改对象”编辑。类似的结论可以从前面图 6 中观察到。此外,“更改内容”得分明显低于其他指标,因为内容更改对图像的主要区域进行了大幅度修改,从而降低了与原始图像的结构相似性。然而,与基线结果相比,本文的结果仍然显著更优。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

用户研究
本文进行了一项用户研究,重点考察两个主要方面:与给定提示的对齐程度以及图像中无关区域的保留情况。我们针对各种编辑任务生成了 50 组图像,每组包含 8 张由本文的方法生成的图像以及 7 张由基线方法基于相同提示生成的图像。共有 56 名参与者查看了每组图像,并被要求选择最符合提示且保留原始图像质量的图像。下图 7 的结果表明,我们方法生成的结果在紧跟提示的同时,能够保留与编辑提示无关区域的质量。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

消融研究

本节通过提出的两个关键模块——实例自适应注意力头Router (IARouter) 和 双token细化模块 (DTR) ——进行消融,验证方法的有效性。


首先,在 IARouter 的消融中,在推理过程中移除了所有的头部约束。如下图 8 左下所示,这导致语义表达较弱(例如,在“苹果”和“折纸”示例中,尽管某种程度上实现了所需的编辑语义,但原始网球图像的残余纹理依然存在)。相比之下,IARouter 通过根据语义内容对不同的头进行Router,增强了特定语义的表达能力。


接下来,对 DTR 进行消融,结果如图 8 右下所示。结果表明,通过加强图像token和文本引导,本文的方法能够捕捉所需的语义,并在响应详细文本引导时实现更细粒度的语义表示。

超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整-AI.x社区

局限性

由于预训练模型中的多模态文本-图像先验,当编辑常见元素(如“埃菲尔铁塔”)时,使用“一个<描述>埃菲尔铁塔”的提示可能会产生有限的结果,因为这些提示已经编码了特定的视觉细节。此外,本文的方法需要将图像反演到潜在空间,因此编辑结果与原始图像的对齐程度取决于反演过程的准确性。

结论

本文探讨了 MM-DiTs 中的多头注意力在图像编辑中的作用,揭示了不同图像语义信息在各个头部中的分布。此外,分析了文本对图像token的引导作用,发现文本影响在更深的注意力块中逐渐减弱。基于这些见解,引入了实例自适应注意力头Router,以增强关键注意力头对目标编辑语义的表示能力,同时提出了双token细化模块,以确保精确的文本引导并强调关键区域。大量的定量和定性评估以及用户研究表明,本文的方法在现有最先进方法中具有显著优势。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/L2-OWy_xRLywS5tJwCOChw​

收藏
回复
举报
回复
相关推荐