即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！

angel

发布于 2025-1-8 11:50

浏览

0收藏

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

文章链接：https://arxiv.org/pdf/2412.21079
项目链接：https://ezioby.github.io/edicho/

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

亮点直击

显式对应性引导一致性编辑：通过将显式图像对应性融入扩散模型的去噪过程，改进自注意力机制与分类器自由引导（CFG），在保持高质量的同时显著提升编辑一致性。
融合无条件嵌入特征：受 NULL-text Inversion 技术启发，提出融合无条件嵌入特征的方法，进一步增强一致性效果，实现更精细的编辑控制。
广泛适用性与优越性能：方法具有免训练和即插即用特性，适配多种扩散模型与任务场景。通过实验验证，展现出在定量指标与定性评估上的卓越性能。

总结速览

解决的问题
跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战，尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而，现有方法在处理多图像一致性时常表现出不稳定性或失真，难以满足实际需求。

提出的方案本文提出了一种基于扩散模型的免训练解决方案 Edicho。其核心设计理念是通过显式图像对应性引导编辑过程，避免传统隐式对应性方法的局限性。包括：

注意力操作模块：增强注意力机制，通过图像之间的对应性引导特征传递。
优化的分类器自由引导（CFG）去噪策略：结合预计算的对应性，在编辑过程中保持高质量和一致性。

应用的技术

利用扩散模型的中间特征与生成图像空间的对齐特性，通过显式对应性指导编辑。
在注意力机制中对查询特征进行变换，从源图像借用相关特征，确保编辑一致性。
修改分类器自由引导的计算方式，融合无条件嵌入特征，提升一致性和图像质量。
特别设计处理真实世界场景图像的能力，保证方法对光照、背景、视角和遮挡变化的鲁棒性。

达到的效果

一致性提升：实现了多图像间的一致性编辑，编辑结果在各种场景下保持高度协调。
通用性：作为推理时的算法，可与大多数基于扩散的编辑方法（如 ControlNet 和 BrushNet）无缝兼容。
实用性：适用于个性化内容创作、3D重建以及一致性纹理应用，扩展了编辑工具的适用范围。
高效性：无需训练数据，具备即插即用特性，能够直接应用于实际任务，代码公开以支持进一步研究。

方法

本文专注于一致性图像编辑任务，即同时对多张图像进行操作以实现一致且统一的视觉效果。首先利用现有的视觉理解方法提取图像对之间的显式语义对应性。再借助构建于 Stable Diffusion 之上的预训练编辑模型，通过这些预计算的显式对应性指导去噪过程，从而确保编辑的一致性。

本节首先回顾扩散模型的一些基本概念，随后讨论显式对应性指导的去噪过程，该过程包括两个层次：注意力特征层和噪声隐空间变量层。需要注意的是，这些特征操作仅应用于部分去噪步骤和层级，以保留预训练模型的强生成先验。

预备知识

扩散模型是一类概率生成模型，通过逐步添加和去除噪声的过程进行训练。前向过程将噪声添加到图像中，具体如下：

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

无分类器引导（CFG）
无分类器引导（CFG）是一种创新技术，旨在通过扩散模型在不依赖额外分类器的情况下提高生成图像的质量和多样性。具体而言，CFG 引入了一个混合系数，用于融合去噪模型生成的条件预测和无条件预测。无条件预测通常通过将条件设置为空或默认值来获得。

编辑的参考网络
最近的编辑方法 [25, 60] 通过在预训练的大型扩散模型上学习一个额外的参考网络来实现编辑，同时保持预训练骨干网络固定。这种网络拓扑结构保持的设计成功地将控制信号与预训练的生成先验分离开。

对应性比较与预测

对应性比较
为了实现一致性编辑的目标，首先从显式和隐式对应性之间的比较开始匹配。显式提取器通过单次前向过程从输入图像中预测对应性，并将此预测应用于所有目标网络层和去噪步骤。而隐式提取器则通过计算每一层和去噪步骤中注意力查询与键的相似性来预测对应性。如同之前的无训练编辑方法，这些对应性随后被应用于当前层和步骤以进行编辑。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

此外，对于案例 (a)、(b) 和 (c)，选择了不同的网络层和去噪步骤 (1, 10)、(2, 15)、(4, 25) 进行提取，以实现更全面的探索，其中（x,y）表示扩散模型的解码器层编号和去噪步骤编号。上面图 2 中的可视化结果表明，通过显式预测获得的对应性明显比隐式方法更准确。而且，隐式方法的预测结果随着网络层和去噪步骤的变化往往变得不稳定。这些结果与之前的研究 [50, 59] 一致，表明只有生成模型的特定层或步骤适合有效的视觉理解，例如点匹配。

不准确的对应性匹配会在执行跨图像注意力时引入不准确的特征，这阻碍了仅基于隐式注意力的编辑方法的编辑一致性。这进一步强化了本文引入更稳健的显式对应性来指导去噪过程的动机。

对应性预测

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

使用对应性的注意力操作

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

无分类器引导与对应关系

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

其中， T表示融合函数，用于对齐无条件噪声， t表示时间步长。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

实验

实验设置

设置：使用Stable Diffusion 作为基础模型，并采用BrushNet 和ControlNet 作为编辑的参考网络。采用DDIM调度器，并进行50步的去噪。默认情况下，提出的基于对应关系的去噪策略应用于第4步到第40步，并从第8个注意力层开始应用，以确保一致性并保持强大的生成先验。需要注意的是，在使用不同基础模型时，这些选择的最优设置可能有所不同。测试样本部分来自互联网，其他样本来自DreamBooth和Custom Diffusion的数据集。

评估指标：遵循Custom Diffusion的方法，采用流行的多模态模型CLIP来评估各种方法在文本对齐（TA）和编辑一致性（EC）方面的表现。具体来说，一方面，通过计算目标提示和模型输出的特征相似度来判断文本对齐；另一方面，通过计算编辑图像的特征相似度来评估编辑一致性。此外，还纳入了用户研究（US）来进一步评估实际应用性和用户满意度。

基准：包含了局部和全局编辑任务，并且与众多先前的图像编辑方法进行了全面对比。具体来说，对于局部编辑任务，包括了Adobe Firefly 、Anydoor和Paint-by-Example等先前的工作进行比较。

在上述方法中，Firefly是Adobe开发的最先进的商业图像修复工具，可以根据给定的文本提示重新绘制输入图像的局部区域。为了实现一致的编辑任务，该组图像将根据相同的详细提示进行修复。Anydoor和Paint-by-example都是支持根据给定参考图像重新绘制目标区域的隐空间变量扩散模型（LDM）。因此，我们将修复后的图像发送给这些模型作为参考，期望得到一致的编辑结果。

对于全局编辑，将本文的方案与MasaCtrl、StyleAlign和Cross-image attention进行比较。上述方法通过操作和融合来自不同源的注意力特征来实现编辑。与本文的方法不同，它们通过计算注意力权重中的隐式对应关系来确保编辑结果的一致性。

评估

定性结果：本文展示了对一致性编辑方法的定性评估，重点关注局部编辑（图像修复）和全局编辑（图像转换）。在下图4中的局部编辑比较中，本文的方法、Adobe Firefly (AF)、Anydoor (AD)和Paint-by-Example (PBE)的结果进行了展示。结果表明，本文的方法通过引入显式的对应关系，始终保持了输入图像在不同修改下的完整性，包括衣物纹理、面罩和领口外观，甚至鞋子的孔眼数量。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

全局编辑的基准主要包括仅由隐式注意力预测的方案——MasaCtrl (MC)、StyleAligned (SA)和Cross-Image-Attention (CIA)。如下图5所示，本文的方法也在编辑过程中取得了更好的一致性和主题一致性，如猫的裙子。与之相比，隐式方法（如MasaCtrl）在汽车车顶、精灵的高领以及机器人的孔洞数量方面未能实现一致的编辑。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

定量结果：对本文提出的方法进行了全面的定量评估，重点关注文本对齐（TA）和编辑一致性（EC）指标。正如下表1所示，在局部编辑任务中，本文的方法在TA和EC得分上均取得了最佳成绩，展示了相较于其他方法的显著改进。在全局编辑任务中，本文的方法继续超越其他对比方法，达到了0.3228的TA得分和0.9355的EC得分。这些结果清楚地证明了本文的方法在实现局部和全局编辑场景中的高文本对齐和编辑一致性方面的有效性。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

消融实验

为了验证所提出的基于对应关系的注意力操作（Corr-Attention）和基于对应关系的CFG（Corr-CFG）的有效性，我们通过分别禁用其中一个方法，并在一致性编辑任务上进行测试来进行消融实验。当禁用所提出的基于对应关系的注意力操作（Corr-Attention）时，扩散模型依赖于隐式注意力对应关系来保持一致性，类似于之前的方法[1,7]。如下图6(a)所示，生成模型会产生错误数量的花朵，并且位置不当。花朵的数量和纹理的不一致证明了引入显式对应关系到注意力操作中的有效性。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

基于对应关系的CFG（Corr-CFG）旨在通过在LDM的潜空间中进行更精细的一致性控制，这一点在图6(b)中得到了验证，Corr-CFG生成了更一致的花朵纹理和碗底的条纹。

额外的应用和结果

基于一致性编辑的定制化：为了进一步展示所提方法的实际应用，我们展示了一个集成DreamBooth和低秩适应（LoRA）技术的定制化图像生成应用示例。利用我们方法生成的编辑输出，我们采用DreamBooth对生成模型进行500步的微调，以进行概念注入。同时，我们还整合了LoRA技术，通过引入低秩矩阵作为适应参数，进一步提高了这一过程的效率。如下图7所示，微调后的生成模型能够生成与编辑对应的理想图像。因此，新的概念生成和概念编辑可以通过这种方式实现，成为一致性编辑的应用示例。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区

基于一致性编辑的3D重建：一致性编辑还能够促进编辑内容的3D重建。我们通过神经回归器实现了3D重建，该回归器能够根据一致的图像对预测准确的3D场景表示。以编辑后的图像为输入，学习到的神经回归器能够预测3D点云模型和2D匹配点，而不需要其他输入，如相机参数。重建和匹配结果如下图8所示，结果也进一步表明了我们方法的编辑一致性。该回归器分别为两组编辑获取了11,515对和13,800对匹配点，且仅展示了其中的一部分以便清晰理解。

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！-AI.x社区