FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）

angel

发布于 2025-3-24 12:32

浏览

0收藏

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

文章链接：https://arxiv.org/pdf/2503.12885
项目链接：https://limuloo.github.io/DreamRenderer

亮点直击

DreamRenderer，一种无需训练的方法，使用户能够在深度条件或边缘条件生成中控制每个区域和实例的生成内容。
引入了一种新颖的Hard Text Attribute Binding（硬文本属性绑定）技术，确保文本嵌入在联合注意力过程中绑定正确的视觉属性。
针对多实例生成，首次深入分析了 FLUX 模型中每一层的隐空间功能，明确了哪些层处理全局操作，哪些层对渲染单个实例至关重要，为后续研究提供了新的见解。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

总结速览

解决的问题

多实例内容控制不准确：现有图像生成模型（如FLUX和3DIS）在控制多个实例（或区域）的内容时存在困难，容易出现属性泄漏问题，导致用户无法精确控制每个实例的视觉属性。
文本嵌入与视觉信息绑定不准确：现有的文本到图像模型（如T5文本编码器）仅基于文本数据进行预训练，缺乏视觉信息，导致在多实例控制场景下，文本嵌入容易与错误的视觉属性绑定。
图像质量与控制的平衡：在联合注意力机制中，过度限制图像标记的注意力范围会导致图像质量下降，而过于宽松的控制则无法保证每个实例的视觉属性准确生成。

提出的方案

DreamRenderer：基于FLUX模型的无需训练的插件式工具，允许用户通过边界框或掩码控制每个实例的内容，同时保持整体视觉和谐。
Bridge Image Tokens（桥接图像标记）：通过复制实例的图像标记作为桥接标记，在联合注意力机制中模拟单实例生成过程，确保文本嵌入绑定正确的视觉属性。
Hard Image Attribute Binding（硬图像属性绑定）：仅在关键层应用硬绑定，确保每个实例的图像嵌入包含正确的视觉信息，而在其他层使用软绑定以保持图像质量。

应用的技术

Bridge Image Tokens：在联合注意力机制中，使用复制的图像标记作为桥接标记，确保文本嵌入与正确的视觉属性绑定。
Hard Image Attribute Binding：在FLUX模型的关键层（中间层）应用硬绑定，确保每个实例的视觉属性准确生成，而在输入和输出层使用软绑定以保持整体视觉和谐。
联合注意力机制：通过调整图像标记的注意力范围，确保每个实例的文本嵌入和图像嵌入能够准确绑定视觉信息。

达到的效果

提升图像生成成功率：在COCO-POS和COCO-MIG基准测试中，DreamRenderer将图像生成成功率（Image Success Ratio）比FLUX模型提高了17.7%，并且在布局到图像模型（如GLIGEN和3DIS）上的表现提升了高达26.8%。
增强多实例控制能力：DreamRenderer能够精确控制每个实例的视觉属性，避免了属性泄漏问题，显著提升了用户对多实例内容的控制能力。
保持图像质量：通过仅在关键层应用硬绑定，DreamRenderer在确保精确控制的同时，保持了生成图像的整体视觉质量。

方法

概述

下图 2 展示了 DreamRenderer 的概览。在联合注意力机制中，DreamRenderer 引入了一种新颖的Hard Text Attribute Binding（硬文本属性绑定）算法，以确保每个实例的文本嵌入正确绑定相关的视觉信息。此外，为了在保持每个实例图像嵌入属性准确的同时增强生成图像的整体和谐性，对 FLUX 中的每一层进行了实验分析，并决定仅在 FLUX 模型的中间层应用 Hard Image Attribute Binding（硬图像属性绑定）。在其他所有层中，使用Soft Image Attribute Binding（软图像属性绑定）。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

准备工作

如上图 2 (a) 所示，DreamRenderer 首先通过 T5 文本编码器分别嵌入每个实例的输入文本描述和全局提示。这些编码后的嵌入随后被连接起来，形成生成过程的完整文本嵌入。本文的方法要求用户提供深度图或边缘图作为结构指导，这为生成图像中实例的空间排列提供了基础。对于实例定位，利用用户提供的边界框或掩码来识别每个实例在结构指导中的区域。

硬文本属性绑定

动机：当生成单个实例时，FLUX 模型通常会生成与文本提示一致的图像，表现出最少的属性错误。在这种情况下，联合注意力中的图像和文本标记仅关注该单个实例的信息，从而使文本嵌入能够绑定准确的视觉属性。基于这一观察，提出在多实例场景中，每个实例的图像和文本标记应主要关注自身，而不是属于其他实例的标记，从而使文本嵌入能够有效绑定正确的视觉信息。

朴素解决方案：确保每个实例的文本嵌入绑定正确属性的一个直接方法是在联合注意力过程中独立处理每个实例。在这种方法中，给定实例的图像和文本标记仅与自身交互，与其他实例的标记保持隔离。然而，这种完全隔离引入了一个显著的缺点：它破坏了整体图像的视觉和谐性，并显著降低了生成结果的质量（如下图 7 所示）。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

桥接图像标记的进阶解决方案：由于在联合注意力中严格隔离每个实例的原始图像标记会降低图像质量，DreamRenderer 提出了一种进阶解决方案：在联合注意力过程中，为每个实例的图像标记创建一个额外的副本，称为 Bridge Image Tokens（桥接图像标记）。这些桥接图像标记不会贡献到最终输出图像中，而是仅用于在联合注意力过程中帮助每个实例的文本嵌入绑定正确的视觉属性。如图 2 所示，桥接图像标记和每个实例的文本标记与单实例生成过程中的对齐方式完全相同，确保最终文本嵌入中的视觉属性与文本描述一致。形式上，对于第个实例，硬文本属性绑定的注意力掩码定义为：

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

图像属性绑定

概述：在确保文本嵌入属性的准确性之后，下一步是保证每个实例的图像标记中视觉属性的正确性。DreamRenderer 在关键绑定层使用 Hard Image Attribute Binding（硬图像属性绑定），以确保每个实例以正确的属性渲染。在其余层中，使用 Soft Image Attribute Binding（软图像属性绑定），以确保所有实例最终形成一个连贯的图像。后面将详细说明硬图像属性绑定和软图像属性绑定的机制，并解释如何识别用于硬图像属性绑定的关键层。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

搜索关键绑定层：如下图 3 所示，在 FLUX 网络（由 57 个联合注意力层组成）中逐层应用硬图像属性绑定，并与在所有层中使用软图像绑定的结果进行比较，以确定哪些层更适合绑定特定实例属性。图 3 的结果表明，在 FLUX 的输入层和输出层附近应用硬图像绑定会导致性能显著下降。相反，在 FLUX 的中间层实施硬图像属性绑定通常会增强属性保真度。基于这些发现，FLUX 的输入层和输出层主要处理全局图像信息，而中间层在渲染图像中实例属性方面起着关键作用。因此，在 FLUX 的中间层执行硬图像绑定，而在其余层使用软图像绑定。这种方法在实例属性保真度和图像整体连贯性之间实现了最佳平衡。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

实验

实验设置

基线方法：除了 FLUX 模型外，还评估了本文的方法与其他几种最先进的多实例生成方法的对比。由于 DreamRenderer 被设计为即插即用的解决方案，通过将其与现有方法（如 GLIGEN、InstanceDiffusion、MIGC 和 3DIS）集成来进行实验。

实现细节：分别使用 FLUX.1-Canny 和 FLUX.1-Depth 进行边缘条件和深度条件生成。在这两种情况下，我们对图像进行 20 步采样。在深度条件生成中，我们将无分类器引导（CFG）的比例设置为 10.0，而在边缘条件生成中，CFG 比例设置为 30。在实验中，对于通过边界框指定位置的实例，我们进一步使用 SAM-2 模型对其进行分割，以获得更精确的实例掩码。

评估基准本文在两个广泛使用的基准上进行了实验：

COCO-POS 基准：要求根据指定的布局生成图像。从 COCO 数据集的图像中提取深度图或边缘图作为条件信号，并利用数据集的固有布局进行渲染。模型必须生成与指定位置的实例类别匹配的结果。将本文的方法与包括 Multi-Diffusion 和 3DIS 在内的无需训练的渲染方法进行比较。
COCO-MIG 基准：测试具有精确位置和属性控制的多实例生成。通过首先使用这些模型生成 RGB 图像，然后提取深度图并结合布局进行实例渲染，来评估DreamRenderer与最先进的 MIG 模型的集成能力。这评估了DreamRenderer在应用于现有 MIG 框架时的属性控制效果。

评估指标本文使用以下指标来评估模型：

平均交并比（MIoU）：衡量渲染实例位置与目标位置之间的重叠比例。
局部 CLIP 分数：评估渲染实例与其对应文本描述的视觉一致性。
平均精度（AP）：评估渲染图像布局的准确性。
实例成功率（ISR）：计算正确渲染实例的比例。
图像成功率（ISR）：衡量所有实例均正确渲染的图像比例。

与最先进方法的比较

COCO-POS 基准：下表 1 展示了本文的方法与 FLUX 和 3DIS 的定量比较结果。在深度引导和边缘引导生成场景中，本文的方法在所有指标上均表现出一致的优势。在深度引导设置中，DreamRenderer 在 SR（62.50% vs. 3DIS 的 53.88%）上显示出显著提升，表明其生成场景结构更加连贯。高 ISR（94.51%）和 MIoU（84.36%）进一步证实了其在实例级别控制的精确性。在更具挑战性的边缘引导场景中，DreamRenderer 的 SR 也比 3DIS 高出 5.21%。同时，如下图 4 所示，本文的方法并未影响原始 FLUX 模型的图像生成质量——这得益于仅在关键层应用硬图像属性绑定。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

COCO-MIG 基准：下表 2 和图 5 展示了将 DreamRenderer 应用于各种最先进的布局到图像方法的结果。如图所示，DreamRenderer 显著增强了实例属性控制的准确性，最终将图像成功率（ISR）比 GLIGEN 提高了 26.8%，比 InstanceDiffusion 提高了 19.9%，比 MIGC 提高了 8.3%，比 3DIS 提高了 7.4%。值得注意的是，随着需要控制的实例数量增加，这种改进变得更加显著：例如，当控制两个实例时，DreamRenderer 的性能提升仅为 2.5%，而在控制六个实例时，提升达到 10.5%。这些优势源于我们的硬文本属性绑定算法，该算法确保每个实例的文本嵌入在联合注意力过程中准确绑定其视觉属性，即使对于大量实例也是如此。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

用户研究下表 3 展示了一项有 31 名参与者参与的用户研究，比较了本文的方法与 FLUX 和 3DIS 在感知质量上的表现。参与者在盲测中查看成对的输出，并根据（1）布局准确性和（2）图像质量进行评分，使用 5 分制，输入布局和文本描述会显示。每名参与者评估了 17 对输出。结果显示，我们提出的 DreamRenderer 不仅增强了 FLUX 模型的布局控制能力，还生成了对用户更具视觉吸引力的输出。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

消融实验

桥接图像标记用于硬文本属性绑定：下表 4 和图 7 展示了我们对硬文本属性绑定机制的消融实验结果。朴素解决方案（§ 3.5）在联合注意力过程中隔离每个实例，破坏了模型的固有特征分布，从而导致性能下降。引入桥接图像标记（不参与最终输出）可以有效解决这一问题，使文本标记能够绑定正确的属性，并在不损害图像质量的情况下提高准确性。随着控制实例数量的增加，硬文本属性绑定的优势变得更加显著：例如，从控制 2 个实例增加到 6 个实例时，实例成功率（ISR）的提升从 3.5% 增加到 6.2%。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

图像属性绑定的关键层：下表 5 和图 6 展示了我们对硬图像属性绑定机制的消融实验结果。在 FLUX 的输入层或输出层应用硬图像属性绑定并未带来明显的性能提升，反而显著降低了图像质量，这表明这些层对模型的全局信息处理至关重要。在这些阶段强加实例或区域隔离会严重破坏中间特征分布，最终导致性能急剧下降。相比之下，将硬图像属性绑定限制在中间层可以在保持图像质量的同时显著提高性能——例如，将实例成功率（ISR）提高 15.7%。这一发现表明，FLUX 的中间层在确定每个实例的视觉内容方面起着关键作用，使其更适合绑定实例的属性。

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）-AI.x社区

结论

DreamRenderer，一种即插即用的方法，能够在深度和边缘条件生成中控制特定区域和实例的内容，同时不损害原始模型的图像质量。本文有两个关键贡献：

硬文本属性绑定机制：引入了一种新颖的硬文本属性绑定机制，利用桥接图像标记（Bridge Image Tokens），确保每个实例的文本嵌入在联合注意力过程中绑定正确的视觉信息。
关键层的硬图像属性绑定：通过对 FLUX 各层的实验分析，仅在关键层应用硬图像属性绑定，在保持精确实例级别控制的同时，确保全局图像的连贯性。

在 COCO-POS 和 COCO-MIG 基准上的大量实验证明了 DreamRenderer 的卓越性能。在深度引导设置中，本文的方法实现了 62.50% 的 SR（成功率）、94.51% 的 ISR（实例成功率）和 84.36% 的 MIoU（平均交并比），显著优于现有方法。即使在更具挑战性的边缘引导设置中，DreamRenderer 依然表现稳健，实现了 74.61% 的 ISR 和 66.95% 的 MIoU。此外，DreamRenderer 可以作为重新渲染器，显著提高布局到图像方法的准确性。其无需训练的特性使得 DreamRenderer 能够轻松应用于各种基础模型，具有高度的灵活性。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/p2p6Te_cUIME2YH5jaj2Qw

标签

模型

数据

51CTO

51CTO博客

51CTO学堂

FLUX秒变高玩！DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题（浙大&哈佛）

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

方法

概述

准备工作

硬文本属性绑定

图像属性绑定

实验

实验设置

与最先进方法的比较

消融实验

结论

目录