今天给大家介绍Adobe研究院新的研究TurboEdit,可以通过文本来编辑图像,通过一句话就能改变图像中的头发颜色、衣服、帽子、围巾等等。而且编辑飞快,<0.5秒。简直是图像编辑的利器。
相关链接
项目:betterze.github.io/TurboEdit
论文:arxiv.org/abs/2408.08332
论文阅读
TurboEdit: 即时基于文本的图像编辑
摘要
我们在几步扩散模型的背景下解决了精确图像反转和分离图像编辑的挑战。
我们引入了一种基于编码器的迭代反演技术。反演网络以输入图像和上一步的重建图像为条件,允许对输入图像进行下一次重建校正。我们证明,通过以(自动生成的)详细文本提示为条件,可以在几步扩散模型中轻松实现分离控制。
为了操纵反转图像,我们冻结噪声图并修改文本提示中的一个属性(手动或通过 LLM 驱动的基于指令的编辑),从而生成与输入图像相似的新图像,但只有一个属性发生变化。它可以进一步控制编辑强度并接受指导性文本提示。
我们的方法促进了实时的真实文本引导图像编辑,反转中只需要 8 个功能评估 (NFE)(一次性成本),每次编辑只需要 4 个 NFE。我们的方法不仅速度快,而且明显优于最先进的多步扩散编辑技术。
方法
给定一个输入的真实图像 x0,我们利用 LLaVA 生成详细的标题 c。用户可以修改 c 以创建新的文本提示 c ′。反演过程首先将 x0、c、当前时间步长 t 和之前重建的图像 x0,t+1(初始化为零矩阵)输入反演网络。然后,该网络预测噪声 ϵt,随后将其输入到冻结的 SDXL-Turbo 模型中以生成新的重建图像 x0,t。给定最终的反演噪声 ϵt 以及 c,我们可以使用 SDXL-Turbo 创建反演轨迹并重建 x0,0,这与 x0 非常相似。使用相同的噪声 ϵt 和略有不同的文本提示 c ′,从 t = T 开始到更小的 t,编辑轨迹将与反演轨迹非常相似,生成的图像将与输入图像非常相似,仅在 c' 中指定的属性上有所不同。
实验
当呈现简洁的源文本提示时,文本空间中的微小编辑可能导致图像空间中的布局和结构发生重大变化。相反,在详细的文本提示中进行小文本编辑往往会导致图像空间中发生更简单的变化。结果来自使用相同随机种子的单步图像生成。下面提供了标题和颜色编码的修改区域。
给定详细的源文本和相应的目标文本,我们可以对文本嵌入进行插值,并在图像空间中生成平滑的插值,即使对于较大的结构变化也是如此。
使用 PIE-Bench 数据集中的描述性文本进行图像编辑比较。效率是在单个 H100 GPU 中测量的。我们的方法实现了最佳的背景保留和剪辑相似性,同时比其他方法快得多(4 步 DDIM 除外)。
我们比较了使用描述性文本提示作为指导的方法。尽管我们的方法只需要四个步骤,但它的表现优于多步骤方法,特别是在需要对属性进行重大结构变化的场景中,例如添加帽子或将男人变成女人。相比之下,InfEdit 和 Pix2PixZero 在背景和身份保存方面遇到了困难。同样,Ledits 和 Ledits++ 无法有效处理大的结构变化,这一点从它们无法添加高顶礼帽或将男人变成女人就可以看出。
我们评估了利用指导性提示作为指导的方法。虽然我们的方法不需要任何意外训练,只需要四个采样步骤,但在身份保存(猫到狗)和文本提示对齐(毛衣到 T 恤)方面,它优于 InstructPix2Pix 及其变体。值得一提的是,InstructPix2pIx 及其变体需要收集大规模意外训练集、计算密集型训练和多步骤采样。
结论
据我们所知,我们的方法是第一个在几步扩散模型的背景下探索图像编辑的工作,也是第一个探索扩散模型中基于编码器的反演的工作。我们证明,通过对(自动生成的)详细文本提示进行条件处理,可以在几步扩散模型中轻松实现解缠结控制。我们的方法使用户能够以交互速率进行逼真的文本引导图像编辑,反演和编辑过程都在几毫秒内完成。