AIGC全新综述！多模态引导的基于文生图大模型的图像编辑综述-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

前言：

提出解决一般性编辑任务的统一框架！近期，复旦大学FVL实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖300多篇相关研究，调研的最新模型截止至今年6月！该综述拓展了关于控制条件（自然语言，图像，用户接口）和编辑任务的讨论（物体/属性操作、空间变换、inpainting、风格转换、图像翻译，主体/属性客制化），以从更新颖和更一般性的角度全面的探讨编辑方法。此外，该综述提出的统一框架将编辑过程表示为不同算法族的组合，并通过全面的定性和定量实验来说明各种组合的特性以及适应场景。该框架提供了友好的设计空间以满足用户不同的需求，并为研究者们提供了一定的参考以开发新的算法。

摘要：

图像编辑旨在根据用户的特定需求编辑给定的合成或真实图像。作为人工智能生成内容（AIGC）领域中一个有前景且具有挑战性的领域，图像编辑得到了广泛研究。近期，大规模文生图（T2I）扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像，展示了惊人的生成能力，已成为图像编辑的常用工具。基于T2I的图像编辑方法显著提升了编辑性能，为用户提供了使用多模态条件引导进行内容修改的接口。我们对基于T2I扩散模型的多模态引导下的图像编辑技术进行了全面回顾。首先，我们从更一般性的角度定义了图像编辑任务的范围，并详细描述了各种控制信号和编辑场景。然后，我们提出了一个统一框架来形式化编辑过程，将其表示为两个算法族的组合。这个框架为用户提供了一个设计空间，以实现特定目标。接着，我们对该框架内的每个组件进行了深入分析，研究了不同组合的特性和适用场景。由于基于训练的方法直接学习将源图像映射到目标图像，我们对这些方法进行了单独讨论，并介绍了不同场景下源图像的注入方案。此外，我们也回顾了2D技术在视频编辑中的应用，重点介绍了解决帧间不一致性的问题。最后，我们也讨论了该领域的开放性挑战，并提出了潜在的未来研究方向。

论文和开源仓库的地址：

论文题目：A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

发表单位：复旦大学FVL实验室，南洋理工大学

论文地址：https://arxiv.org/abs/2406.14555

项目地址：https://github.com/xinchengshuai/Awesome-Image-Editing

1．研究动机

1.1，在现实生活中，人们对于可控的、高质量的智能化图像编辑工具的需求日益增加，因此有必要系统地总结与对比下这个方向的方法与技术特点。

1.2，当前的编辑算法与相关的综述都将编辑场景局限于保留图像中的大部分与编辑无关的低级语义信息，为此要必要扩展编辑任务的范围，从更具有一般性的视角讨论编辑任务。

1.3，由于需求和场景具有多样性，有必要将编辑过程形式化为一个统一框架，并为用户提供一个设计空间来适应不同的编辑目标。

2．这篇综述的特色，以及与当前的编辑综述有什么区别？

2.1 关于编辑任务的定义与讨论范围。相比于现有的算法以及前人的编辑综述，本文对于图像编辑任务的定义更加广泛。具体的，本文将编辑任务分为content-aware 和content-free场景组。其中content-aware组内的场景为之前的文献所讨论的主要任务，它们的共性是保留图像中的一些低级语义特征，如编辑无关区域的像素内容，或图像结构。此外，我们开创性地将客制化任务（customization）纳入到content-free场景组中，将这一类保留高级语义（如主体身份信息，或者其他细粒度属性）的任务作为对常规的编辑场景的补充。

图1. Survey讨论的各种编辑场景

2.2 一般性编辑算法的统一框架。由于编辑场景的多样性，现有的算法无法很好的解决所有的需求。因我们将现有的编辑过程形式化为一个统一的框架，将其表示为两个算法族的组合。此外我们也通过定性和定量实验分析了不同组合的特性与适应场景，为用户提供了一个良好的设计空间以适应不同的编辑目标。同时，该框架也为研究者们提供了一个较好的参考，以设计出性能更优的算法。

2.3 讨论的全面性。我们调研了300多篇的相关论文，系统且全面地阐述了各种模态的控制信号在不同场景下的应用。对于基于训练的编辑方法，本文也提供了在各种场景下源图像注入到T2I模型的策略。此外，我们也探讨了图像编辑技术在视频领域的应用，使得读者能够快速的理解不同领域间编辑算法的联系。

3．一般性编辑算法的统一框架：

图2. 一般性编辑算法的统一框架

框架包含了两个算法族Inversion算法和Editing 算法。

3.1 Inversion算法。Inversion 算法将源图像集合编码到特定的特征或参数空间，得到对应的表征（inversion clue），并用对应的源文本描述作为源图像的标识符。包括tuning-based和forward-based两种类型的inversion算法。其可以被形式化为：

Tuning-based inversion通过原有的diffusion训练过程将源图像集合植入到扩散模型的生成分布中。形式化过程为：

其中为引入的可学习的参数，且。

Forward-based inversion用于在扩散模型的反向过程中（）还原某一条前向路径中的噪声（）。形式化过程为：

其中为方法中引入的参数，用于最小化。在这种方法中，。

3.2.Editing 算法。Editing算法根据和多模态引导集合来生成最终的编辑结果。包含attention-based，blending-based，score-based以及optimization-based的editing算法。其可以被形式化为：

特别地，对于每一步的反向过程，进行了如下操作：

其中中的操作表示编辑算法对于扩散模型采样过程的干预，用于保证编辑后的图像与源图像集合的一致性，并反应出中引导条件所指明的视觉变换。

特别地，我们将无干预的编辑过程过程视作为普通版本的编辑算法。其形式化为:

Attention-based editing的形式化过程:

Blending-based editing的形式化过程:

Score-based editing的形式化过程:

Optimization-based editing的形式化过程:

3.3 Training-Based 的编辑方法。与training-free的方法不同的是，training-based算法通过在任务特定的数据集中直接学习源图像集合到编辑图像的映射。这一类算法可以看作是tuning-based inversion的扩展，即通过额外引入的参数将源图像编码到生成分布中。在这类算法中，最重要的是如何将源图像注入到T2I模型中，以下是针对不同编辑场景的注入方案。

Content-aware 任务的注入方案：

图3. Content-aware 任务的注入方案

Content-free 任务的注入方案：

图3. Content-free 任务的注入方案

4. 统一框架在多模态编辑任务中的应用

本文通过定性实验说明了各个组合在多模态编辑任务中的应用：

图4. 关于attention-based editing的算法组合的应用

图5. 关于blending-based editing的算法组合的应用

图6. 关于score-based editing的算法组合的应用

图7. 关于optimization-based editing的算法组合的应用

具体的分析请查阅原始论文。

5．不同组合在文本引导的编辑场景下的比较

对于常见的文本引导的编辑任务，本文通过设计了多个具有挑战性的定性实验，以说明不同组合所适合的编辑场景。此外，本文也相应地收集了高质量和具有一定难度的数据集，以定量地说明各种组合中的先进算法在不同场景下的性能。

对于 content-aware任务，我们主要考虑对象操作（增/删/替换），属性改变，风格迁移。特别地，我们考虑了具有挑战性的实验设置：1.多目标编辑。2.对于图像的语义布局影响较大的用例。我们也收集了这些复杂场景的高质量图片，并对不同组合中的先进算法进行全面的定量地比较。

图8.Content-aware任务中各个组合的定性比较，从左至右分别是

关于结果的分析以及更多的实验结果请查阅原始论文。

对于 content-free任务，我们主要考虑基于主体驱动的（subject-driven）客制化任务。并考虑了多种场景，如更换背景，与物体的交互，行为的改变，以及风格的改变。我们也定义了大量的文本引导模板，对以各个方法的整体性能进行定量分析。

图9. Content-free任务中各个组合的定性比较，从左至右分别是

关于结果的分析以及更多的实验结果请查阅原始论文。

6．未来可以进行的方向：

此外本文也给出了一些未来的可能一些研究方向分析。这里给出content-aware 任务和content-free 任务的挑战作为例子。

6.1. Content-aware 任务的挑战。对于content-aware 编辑任务的挑战，现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外，一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果，而其他方法则需要繁琐的输入，例如源和目标提示，或辅助掩码。

6.2，Content-free 任务的挑战。对于content-free 编辑任务，现有方法在测试时调优过程冗长且存在过拟合问题。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而，它们常常会丢失个性化主体的细节，或表现出较差的泛化能力。此外，当前方法在从少量图像中提取抽象概念方面也有所不足，它们无法完全将所需概念与其他视觉元素分离开来。

更多的研究方向内容可以查阅原始论文。