突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！精华

angel

发布于 2024-11-6 10:15

浏览

0收藏

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

文章链接：https://arxiv.org/pdf/2410.13370
项目链接：https://correr-zhou.github.io/MagicTailor

亮点直击

引入了一项名为组件可控个性化的新任务，使T2I模型在个性化过程中能够精确控制概念的各个组件。此外，语义污染和语义不平衡被确定为此任务中的关键挑战。
提出了MagicTailor，这是一个专门为组件可控个性化设计的新框架。该框架结合了动态掩码退化（DM-Deg），用于动态扰动不需要的视觉语义，以及双流平衡（DS-Bal），以确保视觉语义的平衡学习。
综合对比表明，MagicTailor在该任务中取得了优异的性能。此外，消融研究和进一步的应用展示了该方法的有效性和多功能性。

总结速览

解决的问题

传统的文本到图像(T2I)扩散模型在生成高质量图像方面有了显著进展，但仍难以精细控制特定的视觉概念。现有方法虽然可以通过学习参考图像来复制给定的概念，但在个体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染（不需要的视觉元素会干扰个性化概念）和语义不平衡（概念与组件之间的学习不均衡）两个主要挑战。

提出的方案

为了解决这些问题，提出了“组件可控个性化”的新任务，并设计了创新框架MagicTailor。MagicTailor通过动态掩码退化（DM-Deg） 动态干扰不需要的视觉语义，同时使用 双流平衡（DS-Bal） 建立了平衡的学习方式，从而实现对目标视觉语义的精细控制。

应用的技术

动态掩码退化（DM-Deg）：动态扰动不需要的视觉语义，减少语义污染。
双流平衡（DS-Bal）：建立平衡的学习模式，解决语义不平衡问题。

达到的效果

通过广泛的对比实验、消融分析和性能分析，MagicTailor在组件可控的个性化任务上表现优异，展示出显著的实用潜力，为更细致和富有创造力的图像生成铺平了道路。

组件可控的个性化

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

(a) 个性化插图，展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。
(b) 组件可控个性化的图示，描绘了一项新制定的任务，旨在在个性化过程中修改视觉概念的特定组件。
(c) MagicTailor 生成的示例图像，展示了所提出的 MagicTailor 的有效性，MagicTailor 是一种新颖的框架，采用 T2I 扩散模型来实现组件可控的个性化。

组件可控个性化的挑战

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

(a) 语义污染：

(i) 不受欢迎的视觉元素可能会无意中扰乱个性化概念。
(ii) 简单的屏蔽策略是无效的，会导致意外的合成
(iii) DM-Deg 有效地抑制了不需要的视觉语义，防止了这种污染。

(b) 语义不平衡：
(i) 同时学习概念和组件可能会导致不平衡，导致概念或组件扭曲（这里介绍前者的情况）。
(ii) DS-Bal 确保平衡学习，提高个性化表现。

MagicTailor Pipeline

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

MagicTailor 使用参考图像作为输入，通过低秩自适应 (LoRA) 微调 T2I 扩散模型，以学习目标概念和组件，从而能够生成将组件无缝集成到概念中的图像。

本文引入了动态掩码退化（DM-Deg），这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性，同时保留整体视觉上下文，从而有效减轻语义污染。

此外，采用双流平衡（DS-Bal），一种旨在平衡视觉语义学习的双流学习范式，来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化，而动量去噪 U-Net 应用选择性保留正则化，确保更忠实的个性化。

算法总览

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

动态mask退化

在此任务中，主要挑战之一是语义污染，其中不需要的视觉语义可能被 T2I 模型感知，从而“污染”个性化概念。如图 2(a.i) 所示，目标概念（即人）可能会受到目标组件的所有者（即眼睛）的严重干扰，导致生成混合的人物。不幸的是，直接遮蔽目标概念和组件以外的区域会破坏整体视觉上下文，从而导致过拟合和奇怪的组合，如图 2(a.ii) 所示。因此，参考图像中不需要的视觉语义应当妥善处理。因此，我们提出了动态掩膜降解（Dynamic Masked Degradation，DM-Deg），旨在动态扰动不需要的视觉语义（见图 3），以抑制 T2I 模型对这些语义的感知，同时保持整体视觉上下文（见图 2(a.iii)）。

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

双流平衡

在此任务中，另一个主要挑战是语义不平衡，这源于目标概念与组件之间固有的视觉语义差异。一般而言，一个概念的视觉语义通常比组件更为丰富（例如，人物与头发），而在某些情况下，组件的语义丰富性可能大于概念（例如，简单的塔与复杂的屋顶）。这种不平衡使得联合学习过程变得复杂，可能会过度强调概念或组件中的某一方，导致生成的不连贯性（见图 5(a)）。为了解决这一挑战，设计了双流平衡（Dual-Stream Balancing，DS-Bal），建立了一种在线和动量去噪 U-Net 的双流学习范式（见图 3），以平衡概念和组件的视觉语义学习，从而提高个性化的保真度（见图 5(b)）。

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

定性结果

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

定量结果

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！-AI.x社区

将 MagicTailor 与基于自动指标（CLIP-T、CLIP-I、DINO 和 DreamSim）和用户研究（人类对文本对齐、身份保真度和生成质量的偏好）的 SOTA 个性化方法进行比较。最佳结果以粗体标记。

MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。

结论

本文引入了组件可控个性化这一新任务，允许在个性化概念中精确定制各个组件。解决了使该任务特别困难的两个主要挑战：语义污染（不需要的视觉元素破坏概念的完整性）和语义不平衡（导致视觉语义学习过程偏差）。为应对这些挑战，提出了MagicTailor这一创新框架，包含动态掩码退化（DM-Deg）以缓解不需要的视觉语义影响，以及双流平衡（DS-Bal）以确保视觉组件的平衡学习。全面实验表明，MagicTailor不仅在这一具有挑战性的任务中树立了新的基准，还为广泛的创意应用开辟了令人兴奋的可能性。展望未来，设想将该方法扩展至图像和视频生成的其他领域，探索如何识别、控制和操控多层次视觉语义，以实现更复杂和富有想象力的生成能力。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/4eWAs4_ST58cAoJxnWHEgA

标签

视频生成

模型