DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙

angel

发布于 2025-4-2 09:42

2155浏览

0收藏

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

文章链接：https://arxiv.org/abs/2503.07027
项目链接：https://github.com/Xiaojiu-z/EasyControl

亮点直击

提出了EasyControl，一种面向DiT模型的条件生成新范式。EasyControl中，每个条件通过独立的条件分支进行处理，该分支通过条件注入LoRA模块从预训练DiT模型适配而来。此设计实现了与定制模型的无缝集成，支持灵活的条件注入与多条件高效融合。
高效性：框架通过两项关键创新实现高效计算。位置感知训练范式将输入条件标准化为固定分辨率，确保适应性与计算效率；因果注意力机制与KV缓存技术的结合，首次在条件生成任务中成功应用KV缓存，显著降低延迟并提升整体效率。
灵活性：EasyControl支持生成不同分辨率与长宽比的图像，通过平衡高质量生成与多样化需求，确保跨场景的鲁棒性能。

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

总结速览

解决的问题

计算效率瓶颈

DiT架构中，自注意力机制因图像token的引入导致计算复杂度呈平方级增长，增加推理延迟，限制实际应用扩展。

多条件协同控制困难

现有方法在单条件训练范式下难以实现多条件稳定协同，潜在空间中的条件信号表征冲突导致生成质量下降，尤其在零样本多条件组合场景中表现不佳。

模型适配性不足

当前参数高效微调方法（如LoRA）与社区定制模型存在参数冲突，导致风格迁移时特征退化，模块缺乏真正的即插即用特性。

提出的方案

轻量级条件注入模块（Condition Injection LoRA Module）

通过隔离处理条件信号，以并行分支机制注入预训练模型，仅对条件分支token应用低秩投影，冻结文本和噪声分支权重，实现与定制模型的无缝兼容。

位置感知训练范式（Position-Aware Training Paradigm）

标准化输入条件的分辨率，结合位置感知插值技术，保持条件token与噪声token的空间一致性，支持任意长宽比和多分辨率生成。

因果注意力机制与KV缓存（Causal Attention + KV Cache）

在初始扩散步（t=0）预计算条件特征的Key-Value对并缓存，后续时间步（t≥1）直接复用，显著减少重复计算。

应用的技术

低秩自适应（LoRA）

条件分支采用低秩矩阵分解，避免修改基础模型权重，实现高效参数微调。

分辨率归一化与位置感知插值

将输入条件缩放到固定分辨率以减少序列长度，通过插值技术保留空间信息。

因果注意力与KV缓存优化

将传统全注意力替换为因果注意力，结合KV缓存技术复用条件特征，降低计算开销。

达到的效果

高效推理

KV缓存技术减少约30%的推理延迟，支持实时生成；分辨率归一化降低输入序列长度，提升计算效率。

灵活控制

零样本多条件泛化能力：即使仅训练单条件数据，仍可和谐融合多条件（如空间控制+主体驱动）。

广泛兼容性

即插即用设计兼容社区定制模型（如风格化DiT），无需重新训练即可适配多样任务。

高质量生成

在虚拟试穿、图像编辑、多分辨率生成等任务中，生成质量显著优于基线方法（如ControlNet for DiT）。

效果可视化对比

多条件生成设置下与身份自定义方法比较

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

空间控制生成可视化对比

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

不同分辨率生成设置下与基线方法可视化比较

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

主题控件生成可视化

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

方法

本节将详细介绍EasyControl的技术实现，方法整体框架如下图2所示。EasyControl基于FLUX.1开发平台构建，包含以下核心组件：条件注入LoRA模块、因果注意力机制、位置感知训练范式以及推理KV缓存。

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

条件注入LoRA模块

为高效融合条件信号并保持预训练模型的泛化能力，在FLUX架构中扩展了独立的条件分支。与传统添加独立控制模块的方法不同，本方案通过以下方式实现条件信息的无缝集成，同时避免冗余参数与计算开销：

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

通过仅在条件分支应用基于LoRA的自适应机制，确保条件信号能高效注入模型，同时不破坏预训练的文本和噪声表征。这种定向自适应使模型能灵活整合条件信息，同时保持原始特征空间的完整性，从而实现更具可控性和高保真度的图像生成。

EasyControl 中的因果注意力机制

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

条件因果注意力

该机制强制两条规则：

各条件分支内部进行条件内计算
采用注意力掩码防止训练期间条件token查询去噪（文本&噪声）token

形式化定义单条件训练时的输入序列为：

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

该设计通过阻断条件分支到去噪分支（噪声&文本）的单向注意力，同时允许去噪分支token自由聚合条件信号。通过严格隔离条件到去噪的查询操作，该方案在推理时可实现各分支解耦的KV缓存状态，从而减少冗余计算并显著提升图像生成效率。

互因果注意力

本文模型仅使用单条件输入训练，每个条件token学习与去噪token的优化交互。在多条件推理时，虽然所有条件都与去噪token正常交互，但由于未训练的跨条件token交互会导致条件间干扰（见下图5）。

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

该机制通过以下形式化定义实现多条件推理时的输入序列：

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

位置感知训练范式

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

虽然这种基础下采样方法对主体条件（如人脸图像）有效，但会破坏空间条件（如Canny边缘图）的几何对齐性，限制模型生成任意分辨率图像的能力。为此，引入两种定制策略：

位置感知插值（PAI）：针对空间条件，在缩放时保持像素级对齐；
位置编码偏移策略（详见附录B）：针对主体条件，在高度维度施加固定位移。

位置感知插值

为保持条件token与噪声token的空间一致性，提出位置感知插值（PAI）策略，在条件信号缩放过程中对位置编码进行插值。该方法确保模型能精确捕捉控制条件与生成图像像素间的空间关系。

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

原始图像中的位置编码序列表示为：

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

而调整大小后的图像的插值序列为：

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

这确保了调整大小后的图像中空间关系的保留。

损失函数

本文损失函数使用流匹配损失。其数学表达式如下：

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

通过KV缓存实现高效推理

通过利用因果注意机制，本文框架将条件分支隔离为一个与去噪时间步无关的计算模块。这种独特设计使得在推理过程中能够新颖地应用KV缓存技术。由于条件分支的计算与去噪时间步无关，在初始时间步只需预计算并存储所有条件特征的键值（KV）对一次。这些缓存的KV对在所有后续时间步中重复使用，消除了相同条件特征的冗余重新计算。这种方法通过避免N次重新计算（针对N个去噪步骤）来减少推理延迟，同时保持生成质量和模型灵活性。

实验

本节首先描述EasyControl的实现细节，然后概述评估指标。接下来，展示实验结果，包括定性和定量分析，以及消融实验。

实现细节

采用FLUX.1 dev作为预训练的DiT。对于每个空间或主题条件训练，我们使用4个A100 GPU（80GB），每个GPU的批量大小为1，学习率为1e-4，训练100,000步。在推理期间，应用流匹配采样进行25个采样步骤。

实验设置

视觉比较： 我们评估以下设置：(1) 单条件生成，(2) 使用定制模型的单条件适应，(3) 多条件集成（如下图3和下图4所示），以及(4) 分辨率适应性。定量比较：我们评估以下方面：(1) 单条件和双条件生成下的推理时间和模型参数数量（以评估效率，如下表1所示），(2) 使用面部+OpenPose作为多条件的可控性、生成质量和文本一致性，以及(3) 单条件设置下的可控性、生成质量和文本一致性。

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙-AI.x社区

比较方法： 对于单条件，与Controlnet、OminiControl和Uni-ControlNet进行比较。对于多条件设置，评估本文方法与几个即插即用基线方法，包括Controlnet+IP-Adapter、Controlnet+Redux和Uni-Controlnet。还比较了与ControlNet集成的几种ID定制方法[15, 35, 71]。

实验结果

定性比较

上图3 (a)比较了不同方法在单控制条件下的性能。在Canny控制下，Uni-ControlNet和ControlNet表现出颜色不一致，导致与输入文本偏离。在深度控制下，Uni-ControlNet未能生成连贯的图像，而ControlNet和OmniControl引入了伪影，例如狗和沙发的融合。在OpenPose控制下，本文方法保留了文本渲染，而其他方法则削弱或失去了这种能力。在主题控制下，IP-Adapter和Uni-ControlNet未能与参考对齐。总体而言，本文方法确保了文本一致性和在不同控制条件下的高质量生成。

上图3 (b)比较了不同方法在四个定制模型上生成图像的即插即用能力。最左列显示了来自LoRA微调的Flux.1 Dev模型的原始文本到图像（T2I）结果。ControlNet和OmniControl都牺牲了风格化，并遭受质量下降。相比之下，本文方法展示了在不失去可控性的情况下最小化风格化损失的能力，体现了我们方法的即插即用能力。

上图4展示了不同方法在多条件控制下的视觉比较。对于OpenPose和面部控制，本文方法在身份一致性和可控性方面表现优异。相比之下，其他方法在控制条件之间表现出冲突。虽然ControlNet和IP-Adapter的组合保持了可控性，但却损害了身份一致性。

ControlNet+Redux和Uni-ControlNet未能同时保持身份一致性和可控性，这在主题-深度控制场景中也有所体现（右侧第三/第四行）。对于OpenPose-Canny和Depth-Canny组合，本文方法和Uni-ControlNet都生成了符合控制条件的图像。然而，Uni-ControlNet难以与文本输入对齐，并产生质量较低的图像。Multi-ControlNet未能同时满足两个条件。这些结果展示了我们方法在无缝整合多种条件方面的灵活性。

定量比较

上表1展示了在单个A100 GPU上进行20次采样步骤时各种算法的推理时间和相应的模型参数数量。在单条件设置下，本文完整模型实现了最佳性能，推理时间为16.3秒，比没有位置感知训练范式（PATP）和KV缓存的版本减少了58%。值得注意的是，本文方法在保持最小参数数量15M的同时实现了这一效率，明显低于ControlNet的3B参数。对于双条件任务，本文完整模型实现了18.3秒的推理时间，比没有PATP和KV缓存的版本快75%。这一性能与ControlNet+IPA（16.8秒）竞争，同时保持了更小的模型大小（30M参数相比于ControlNet+IPA的4B）。结果突出了我们提出的PATP和KV缓存机制在提高推理效率方面的有效性，而不影响模型的紧凑性。

消融研究

在本文消融研究中，我们分析了去除各个模块的影响。首先，将条件注入LoRA（CIL）替换为标准LoRA结构（W.O. CIL）允许单条件控制，但无法以零样本方式推广到多条件控制。对于位置感知训练范式（PATP），我们训练了一个没有PATP的模型，其中控制信号和噪声固定在512×512分辨率，同时保持其他训练设置不变。该模型在生成高分辨率（例如1024×1024）或非正方形纵横比（例如1024×768）图像时表现出伪影和质量下降。相比之下，基于PATP的训练有效地缓解了这些问题。对于因果注意，去除因果互注意（CMA）仍允许图像生成，这得益于注意力的自适应性质。然而，条件之间的冲突降低了控制精度，导致诸如在多控制场景中改变人体姿势和移动物体位置（例如月亮）等偏差。当所有模块一起使用时，本文方法实现了最高的可控性、生成质量以及对不同分辨率和纵横比的适应性。

结论

EasyControl，一个高效且灵活的统一条件引导扩散模型框架。本文框架利用了三个关键创新：(1) 一个轻量级的条件注入LoRA模块，能够无缝整合多样的条件信号而不改变核心模型的功能。(2) 一个位置感知训练范式，确保对各种分辨率和纵横比的适应性。(3) 一个新颖的因果注意机制结合KV缓存技术，显著提高了效率。这些组件共同解决了可控图像生成中的效率和灵活性挑战。EasyControl在广泛的视觉任务中实现了强大的可控性和高质量结果。广泛的实验展示了其处理复杂的多条件场景的能力，同时扩展到多样的分辨率和纵横比。本文框架为条件图像生成提供了一个强大且可适应的解决方案。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/uO55WYUYM08kLjMz7QxmyQ

标签

模型

数据

51CTO

51CTO博客

51CTO学堂

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

效果可视化对比

多条件生成设置下与身份自定义方法比较

空间控制生成可视化对比

不同分辨率生成设置下与基线方法可视化比较

主题控件生成可视化

方法

条件注入LoRA模块

EasyControl 中的因果注意力机制

条件因果注意力

互因果注意力

位置感知训练范式

位置感知插值

损失函数

通过KV缓存实现高效推理

实验

实现细节

实验设置

实验结果

定性比较

定量比较

消融研究

结论

目录