今天的文章来自公众号粉丝投稿,清华大学联合字节提出了一项虚拟试穿新方法AnyDressing: 可以利用参考的服饰和文本prompt定制化人物,核心是解决多服饰组合搭配、文本响应以及服饰细节的问题。
• 可靠性: AnyDressing 适合各种场景和复杂的服装。
• 兼容性: AnyDressing 兼容 LoRA 以及 ControlNet 和 FaceID 等插件。
相关链接
• Project page: https://crayon-shinchan.github.io/AnyDressing/
• Huggingface: https://huggingface.co/papers/2412.04146
• Code: https://github.com/Crayon-Shinchan/AnyDressing
• Paper: https://arxiv.org/abs/2412.04146
论文阅读
AnyDressing:通过潜在扩散模型实现可定制的多服装虚拟穿衣
摘要
基于扩散模型的以服装为中心的文本和图像提示图像生成方面的最新进展令人印象深刻。然而,现有的方法缺乏对各种服装组合的支持,并且难以在忠实于文本提示的同时保留服装细节,从而限制了它们在不同场景中的表现。在本文中,我们专注于一项新任务,即多服装虚拟穿衣,并提出了一种新颖的AnyDressing方法,用于根据任意服装组合和任意个性化文本提示定制角色。AnyDressing包含两个主要网络,分别为GarmentsNet和DressingNet,分别用于提取详细的服装特征和生成定制图像。具体而言,我们在GarmentsNet中提出了一个高效且可扩展的模块,称为服装特定特征提取器,用于并行单独编码服装纹理。这种设计在确保网络效率的同时防止了服装混淆。同时,我们在DressingNet中设计了一种自适应的穿衣注意机制和一种新颖的实例级服装定位学习策略,以将多服装特征准确地注入到它们相应的区域。该方法有效地将多件服装的纹理线索整合到生成的图像中,并进一步增强了文本与图像的一致性。此外,我们引入了服装增强纹理学习策略来改善服装的细粒度纹理细节。得益于我们精心设计,AnyDressing 可以作为插件模块,轻松与任何社区控制扩展集成以用于扩散模型,从而提高合成图像的多样性和可控性。大量实验表明,AnyDressing 取得了最先进的成果。
它是如何工作的?
AnyDressing给定N 件目标服装,定制穿着多件目标服装的角色。GarmentsNet 利用服装特定特征提取器 (GFE)模块从多件服装中提取细节特征。DressingNet 使用Dressing-Attention (DA)模块和实例级服装定位学习机制将这些特征集成在一起进行虚拟穿衣。此外,服装增强纹理学习 (GTL)策略进一步增强细节。
与最新技术的比较
与最先进的单件服装和多件服装穿衣方法 进行定性比较。
各种虚拟试衣效果
逼真的场景
风格化的场景
AnyDressing + IPA 和 ControlNet
AnyDressing + LoRA
结论
本文介绍了由两个核心网络(GarmentsNet 和 DressingNet)组成的 AnyDressing,重点关注一项新任务,即多服装虚拟穿衣。 GarmentsNet 采用服装特定特征提取器模块,高效地并行编码多服装特征。DressingNet 使用 Dressing-Attention 模块和实例级服装定位学习机制将这些特征集成到虚拟穿衣中。此外,论文还设计了一种服装增强纹理学习策略,以进一步增强纹理细节。该方法可以与任何社区控制插件无缝集成。大量实验表明,AnyDressing 取得了最先进的成果。