FLUX加持大幅提升渲染质量和控制能力!浙大&哈佛提出3DIS升级版3DIS-FLUX
文章链接:https://arxiv.org/pdf/2501.05131
项目链接:https://limuloo.github.io/3DIS/
亮点直击
- 3DIS的创新:通过深度驱动的解耦生成框架,大大降低了对计算资源的需求,并解决了适配器方法的重新训练问题。
- FLUX的集成:3DIS-FLUX利用FLUX模型提升了渲染质量和控制能力,超越了传统的U-Net架构。
- 训练-free细节渲染:通过细致控制FLUX模型中的Attention机制,成功实现了对每个实例细节的精确渲染,避免了额外的训练负担。
- 性能与质量双重提升:3DIS-FLUX在多个基准测试中显示出比现有方法更好的实例成功率和更高的图像质量。
总结速览
解决的问题:
- 适配器方法的挑战:当前的MIG方法通常基于适配器,这要求在每次推出更先进的模型时重新训练新的适配器,消耗大量资源。此外,高质量的实例级标注数据难以获得。
- 计算资源和数据依赖:适配器方法需要为不同的模型进行重新训练,这对资源有限的用户造成了困扰;同时,实例级别的标注数据难以获得。
提出的方案:
- 3DIS框架:通过将MIG过程分为两个阶段:1) 基于深度的场景构建;2) 利用预训练的深度控制模型进行细节渲染,减轻了对大量训练数据和计算资源的依赖。特别地,3DIS在场景构建阶段只需要训练深度生成模型。
- 3DIS-FLUX扩展:在3DIS框架基础上,引入FLUX模型用于增强渲染能力,利用FLUX.1-Depth-dev模型进行深度图控制的图像生成,同时通过训练-free的细节渲染器对实例属性进行精细化控制,确保每个实例的细节符合布局信息。
应用的技术:
- 3DIS框架:将MIG分为深度生成和细节渲染两个独立的阶段,前者使用布局到深度图的生成模型,后者利用预训练的深度控制模型进行细节渲染。
- FLUX模型:作为基于Diffusion Transformer(DiT)架构的模型,FLUX具有比传统U-Net架构更强的渲染能力和控制能力。特别是在3DIS-FLUX中,FLUX被用来生成基于深度图的图像,并通过约束Joint Attention机制精确渲染每个实例的细节。
- 训练-free的细节渲染器:通过约束FLUX的Joint Attention机制,确保每个实例的图像tokens仅关注自己的text tokens,从而精确渲染实例属性。
达到的效果:
- 提高渲染精度:3DIS-FLUX在COCO-MIG基准测试中,相比原始的3DIS方法(使用SD2和SDXL),实例成功率(ISR)提高了6.9%。相比于训练-free的SOTA方法Multi-Diffusion,ISR提高了41%以上,超越了当前的SOTA适配器方法InstanceDiffusion(提高了12.4%)。
- 图像质量提升:FLUX模型的引入大幅提高了图像质量,3DIS-FLUX在渲染效果上超过了其他方法。
方法
前提
FLUX是一种最新的最先进的扩散Transformer(DiT)模型,相比于以前的模型,它生成的图像质量更高,并展示了强大的文本控制能力。给定输入文本,FLUX 首先使用 T5 文本编码器将其编码为文本嵌入。然后,将这个文本嵌入与图像嵌入连接,进行联合注意力机制。经过几轮联合注意力后,FLUX 模型解码输出的图像嵌入,生成与输入文本相对应的高质量图像。
问题定义
概述
下图 2 展示了 3DIS-FLUX 的概述。与原始 3DIS 相似,3DIS-FLUX 将多实例生成解耦为两个阶段:生成场景深度图和渲染细粒度细节。在第一阶段,3DIS-FLUX 使用来自 3DIS 的布局到深度模型生成基于用户提供的布局的场景深度图。在第二阶段,3DIS-FLUX 使用 FLUX.1-depth-dev模型从场景深度图生成图像,从而控制生成图像的布局。为了进一步确保每个实例的细粒度属性得到准确渲染,3DIS-FLUX 引入了细节渲染器,该渲染器在联合注意力过程中根据布局信息约束注意力掩码。
FLUX 细节渲染器
动机
给定第一阶段生成的场景深度图,FLUX.1-depth-dev 模型(BlackForest,2024)能够生成符合指定布局的高质量图像。在仅涉及单个实例的场景中,用户可以通过描述一个全局图像文本来实现精确渲染。然而,当尝试用一个全局文本描述准确地渲染多个实例时,会遇到挑战。例如,在上面图 2 所示的案例中,使用像“一个橙色杯子,一个黄色杯子,一个蓝色杯子”这样的描述渲染场景深度图中的每个“杯子”时,会遇到困难。这种方法常常导致颜色不一致的问题,例如原本应为蓝色的杯子被渲染为橙色,下图 4 中有更多例子说明了这个问题。因此,将空间约束整合到 FLUX 模型的联合注意力过程中对于准确渲染多个实例至关重要。为了解决这些问题,本文引入了一个简单但有效的 FLUX 细节渲染器,大大提高了渲染精度。
准备工作
控制图像嵌入的注意力
FLUX 模型通过多步采样生成图像。
控制文本嵌入的注意力
实验
实现细节
实验设置
基准方法
将3DIS 方法与最先进的多实例生成方法进行了比较。比较中涉及的方法包括无训练的方法:BoxDiffusion和 MultiDiffusion;以及基于适配器的方法:GLIGEN、InstanceDiffusion和 MIGC。
评估基准
在 COCO-MIG基准上进行了实验,以评估模型控制实例位置和准确渲染每个生成实例的细粒度属性的能力。为了进行全面评估,每个模型在基准上生成了 750 张图像。
评估指标
使用以下指标来评估模型:
- 平均交并比(MIoU),衡量生成的实例位置与目标位置之间的重叠度;
- 实例成功率(ISR),计算正确定位且具有准确属性的实例比例。
比较
与最先进方法的比较
下表 1 中展示的结果表明,3DIS 方法不仅展现了强大的位置控制能力,还具有稳健的细节渲染能力。值得注意的是,3DIS 的整个实例属性渲染过程是不需要训练的。与之前的最先进无训练方法 MultiDiffusion 相比,3DIS-FLUX 在实例成功率(ISR)上提高了 41%。此外,与需要训练的 SOTA 适配器方法 InstanceDiffusion 相比,3DIS-FLUX 在 ISR 上提高了 12.4%。更重要的是,3DIS 方法并不与现有的适配器方法互斥。例如,3DIS+GLIGEN 和 3DIS+MIGC 的组合在性能上超越了单独使用适配器方法,表现更加优越。
下图 3 提供了 3DIS 与其他最先进方法的视觉对比,结果表明,3DIS 不仅在场景构建上表现出色,而且在实例细节渲染上也有强大的能力。此外,3DIS 与各种基础模型兼容,提供了比以前方法更广泛的应用性。
不同模型的渲染比较
如表 1 所示,采用更强大的模型显著提高了渲染成功率。例如,使用 FLUX 模型进行渲染比使用 SD1.5 模型的实例成功率高出 9.9%。
消融研究
FLUX 细节渲染器
前面图 4 的结果表明,如果不使用细节渲染器来管理 FLUX 模型的联合注意力过程,在多实例场景中成功渲染每个实例将变得非常困难。下表 2 的数据表明,引入细节渲染器可以将实例成功率(ISR)提高 17.8%,成功率(SR)提高 12.2%。此外,图 4 的结果还表明,加入细节渲染器不会显著降低图像质量。
控制图像嵌入的注意力
表 2 的结果显示,在联合注意力机制中,控制每个图像标记仅关注其对应的实例描述标记(即 I2T 控制)对于成功渲染每个实例至关重要,这使得实例成功率(ISR)提高了 19.1%。此外,在过程的早期步骤中,限制每个实例的图像标记仅关注属于同一实例的其他图像标记(即 I2I 控制)也带来了显著的改进,使 ISR 提高了 7.5%。
控制文本嵌入的注意力
与使用 CLIP 作为文本编码器的模型(如 SD1.5、SD2和 SDXL )不同,FLUX 使用 T5 文本编码器。该编码器仅在文本数据上进行预训练,生成的嵌入不包含视觉信息。因此,在联合注意力机制中,在多实例上下文中对文本标记施加约束变得尤为重要。正如前面表 2 和图 5 的结果所示,在联合注意力机制中,如果不对文本标记施加约束—允许一个实例的文本标记关注其他实例的文本标记—会显著降低渲染成功率,ISR 减少了 16.3%。此外,我们的分析还发现,添加约束,使得每个实例的文本标记仅关注其对应的图像标记,并未带来显著的改进。
结论
3DIS-FLUX,这是对先前 3DIS 框架的扩展。原始的 3DIS 探索了一种仅使用 U-net 架构的免训练渲染方法。与之相比,3DIS-FLUX 利用了最先进的 DiT 模型 FLUX 进行渲染。在 COCO-MIG 数据集上进行的实验表明,使用更强大的 FLUX 模型进行渲染使得 3DIS-FLUX 显著优于先前的 3DIS-SDXL 方法,甚至超越了最先进的基于适配器的 MIG 方法。3DIS-FLUX 的成功突显了 3DIS 框架的灵活性,它能够快速适应各种新的、更强大的模型。预计 3DIS 将使用户能够利用更广泛的基础模型进行多实例生成,并扩展其在更多应用场景中的适用性。
本文转自AI生成未来 ,作者:AI生成未来