突破个性化图像生成局限!MagicTailor:组件可控个性化图像生成创新框架! 精华
文章链接:https://arxiv.org/pdf/2410.13370
项目链接:https://correr-zhou.github.io/MagicTailor
亮点直击
- 引入了一项名为组件可控个性化的新任务,使T2I模型在个性化过程中能够精确控制概念的各个组件。此外,语义污染和语义不平衡被确定为此任务中的关键挑战。
- 提出了MagicTailor,这是一个专门为组件可控个性化设计的新框架。该框架结合了动态掩码退化(DM-Deg),用于动态扰动不需要的视觉语义,以及双流平衡(DS-Bal),以确保视觉语义的平衡学习。
- 综合对比表明,MagicTailor在该任务中取得了优异的性能。此外,消融研究和进一步的应用展示了该方法的有效性和多功能性。
总结速览
解决的问题
传统的文本到图像(T2I)扩散模型在生成高质量图像方面有了显著进展,但仍难以精细控制特定的视觉概念。现有方法虽然可以通过学习参考图像来复制给定的概念,但在个体组件的细粒度自定义方面存在局限性。这种细粒度的控制受限于语义污染(不需要的视觉元素会干扰个性化概念)和语义不平衡(概念与组件之间的学习不均衡)两个主要挑战。
提出的方案
为了解决这些问题,提出了“组件可控个性化”的新任务,并设计了创新框架MagicTailor。MagicTailor通过动态掩码退化(DM-Deg) 动态干扰不需要的视觉语义,同时使用 双流平衡(DS-Bal) 建立了平衡的学习方式,从而实现对目标视觉语义的精细控制。
应用的技术
- 动态掩码退化(DM-Deg):动态扰动不需要的视觉语义,减少语义污染。
- 双流平衡(DS-Bal):建立平衡的学习模式,解决语义不平衡问题。
达到的效果
通过广泛的对比实验、消融分析和性能分析,MagicTailor在组件可控的个性化任务上表现优异,展示出显著的实用潜力,为更细致和富有创造力的图像生成铺平了道路。
组件可控的个性化
- (a) 个性化插图,展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。
- (b) 组件可控个性化的图示,描绘了一项新制定的任务,旨在在个性化过程中修改视觉概念的特定组件。
- (c) MagicTailor 生成的示例图像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一种新颖的框架,采用 T2I 扩散模型来实现组件可控的个性化。
组件可控个性化的挑战
- (a) 语义污染:
- (i) 不受欢迎的视觉元素可能会无意中扰乱个性化概念。
- (ii) 简单的屏蔽策略是无效的,会导致意外的合成
- (iii) DM-Deg 有效地抑制了不需要的视觉语义,防止了这种污染。
- (b) 语义不平衡:
- (i) 同时学习概念和组件可能会导致不平衡,导致概念或组件扭曲(这里介绍前者的情况)。
- (ii) DS-Bal 确保平衡学习,提高个性化表现。
MagicTailor Pipeline
MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。
本文引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。
此外,采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。
算法总览
动态mask退化
在此任务中,主要挑战之一是语义污染,其中不需要的视觉语义可能被 T2I 模型感知,从而“污染”个性化概念。如图 2(a.i) 所示,目标概念(即人)可能会受到目标组件的所有者(即眼睛)的严重干扰,导致生成混合的人物。不幸的是,直接遮蔽目标概念和组件以外的区域会破坏整体视觉上下文,从而导致过拟合和奇怪的组合,如图 2(a.ii) 所示。因此,参考图像中不需要的视觉语义应当妥善处理。因此,我们提出了动态掩膜降解(Dynamic Masked Degradation,DM-Deg),旨在动态扰动不需要的视觉语义(见图 3),以抑制 T2I 模型对这些语义的感知,同时保持整体视觉上下文(见图 2(a.iii))。
双流平衡
在此任务中,另一个主要挑战是语义不平衡,这源于目标概念与组件之间固有的视觉语义差异。一般而言,一个概念的视觉语义通常比组件更为丰富(例如,人物与头发),而在某些情况下,组件的语义丰富性可能大于概念(例如,简单的塔与复杂的屋顶)。这种不平衡使得联合学习过程变得复杂,可能会过度强调概念或组件中的某一方,导致生成的不连贯性(见图 5(a))。为了解决这一挑战,设计了双流平衡(Dual-Stream Balancing,DS-Bal),建立了一种在线和动量去噪 U-Net 的双流学习范式(见图 3),以平衡概念和组件的视觉语义学习,从而提高个性化的保真度(见图 5(b))。
定性结果
展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。
定量结果
将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。
MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。
结论
本文引入了组件可控个性化这一新任务,允许在个性化概念中精确定制各个组件。解决了使该任务特别困难的两个主要挑战:语义污染(不需要的视觉元素破坏概念的完整性)和语义不平衡(导致视觉语义学习过程偏差)。为应对这些挑战,提出了MagicTailor这一创新框架,包含动态掩码退化(DM-Deg)以缓解不需要的视觉语义影响,以及双流平衡(DS-Bal)以确保视觉组件的平衡学习。全面实验表明,MagicTailor不仅在这一具有挑战性的任务中树立了新的基准,还为广泛的创意应用开辟了令人兴奋的可能性。展望未来,设想将该方法扩展至图像和视频生成的其他领域,探索如何识别、控制和操控多层次视觉语义,以实现更复杂和富有想象力的生成能力。
本文转自AI生成未来 ,作者:AI生成未来