
DiT控制新纪元!"即插即控",Tiamat AI重磅开源EasyControl:任意比例出图+推理速度狂飙
文章链接:https://arxiv.org/abs/2503.07027
项目链接:https://github.com/Xiaojiu-z/EasyControl
亮点直击
- 提出了EasyControl,一种面向DiT模型的条件生成新范式。EasyControl中,每个条件通过独立的条件分支进行处理,该分支通过条件注入LoRA模块从预训练DiT模型适配而来。此设计实现了与定制模型的无缝集成,支持灵活的条件注入与多条件高效融合。
- 高效性:框架通过两项关键创新实现高效计算。位置感知训练范式将输入条件标准化为固定分辨率,确保适应性与计算效率;因果注意力机制与KV缓存技术的结合,首次在条件生成任务中成功应用KV缓存,显著降低延迟并提升整体效率。
- 灵活性:EasyControl支持生成不同分辨率与长宽比的图像,通过平衡高质量生成与多样化需求,确保跨场景的鲁棒性能。
总结速览
解决的问题
- 计算效率瓶颈
DiT架构中,自注意力机制因图像token的引入导致计算复杂度呈平方级增长,增加推理延迟,限制实际应用扩展。
- 多条件协同控制困难
现有方法在单条件训练范式下难以实现多条件稳定协同,潜在空间中的条件信号表征冲突导致生成质量下降,尤其在零样本多条件组合场景中表现不佳。
- 模型适配性不足
当前参数高效微调方法(如LoRA)与社区定制模型存在参数冲突,导致风格迁移时特征退化,模块缺乏真正的即插即用特性。
提出的方案
- 轻量级条件注入模块(Condition Injection LoRA Module)
通过隔离处理条件信号,以并行分支机制注入预训练模型,仅对条件分支token应用低秩投影,冻结文本和噪声分支权重,实现与定制模型的无缝兼容。
- 位置感知训练范式(Position-Aware Training Paradigm)
标准化输入条件的分辨率,结合位置感知插值技术,保持条件token与噪声token的空间一致性,支持任意长宽比和多分辨率生成。
- 因果注意力机制与KV缓存(Causal Attention + KV Cache)
在初始扩散步(t=0)预计算条件特征的Key-Value对并缓存,后续时间步(t≥1)直接复用,显著减少重复计算。
应用的技术
- 低秩自适应(LoRA)
条件分支采用低秩矩阵分解,避免修改基础模型权重,实现高效参数微调。
- 分辨率归一化与位置感知插值
将输入条件缩放到固定分辨率以减少序列长度,通过插值技术保留空间信息。
- 因果注意力与KV缓存优化
将传统全注意力替换为因果注意力,结合KV缓存技术复用条件特征,降低计算开销。
达到的效果
- 高效推理
KV缓存技术减少约30%的推理延迟,支持实时生成;分辨率归一化降低输入序列长度,提升计算效率。
- 灵活控制
零样本多条件泛化能力:即使仅训练单条件数据,仍可和谐融合多条件(如空间控制+主体驱动)。
- 广泛兼容性
即插即用设计兼容社区定制模型(如风格化DiT),无需重新训练即可适配多样任务。
- 高质量生成
在虚拟试穿、图像编辑、多分辨率生成等任务中,生成质量显著优于基线方法(如ControlNet for DiT)。
效果可视化对比
多条件生成设置下与身份自定义方法比较
空间控制生成可视化对比
不同分辨率生成设置下与基线方法可视化比较
主题控件生成可视化
方法
本节将详细介绍EasyControl的技术实现,方法整体框架如下图2所示。EasyControl基于FLUX.1开发平台构建,包含以下核心组件:条件注入LoRA模块、因果注意力机制、位置感知训练范式以及推理KV缓存。
条件注入LoRA模块
为高效融合条件信号并保持预训练模型的泛化能力,在FLUX架构中扩展了独立的条件分支。与传统添加独立控制模块的方法不同,本方案通过以下方式实现条件信息的无缝集成,同时避免冗余参数与计算开销:
通过仅在条件分支应用基于LoRA的自适应机制,确保条件信号能高效注入模型,同时不破坏预训练的文本和噪声表征。这种定向自适应使模型能灵活整合条件信息,同时保持原始特征空间的完整性,从而实现更具可控性和高保真度的图像生成。
EasyControl 中的因果注意力机制
条件因果注意力
该机制强制两条规则:
- 各条件分支内部进行条件内计算
- 采用注意力掩码防止训练期间条件token查询去噪(文本&噪声)token
形式化定义单条件训练时的输入序列为:
该设计通过阻断条件分支到去噪分支(噪声&文本)的单向注意力,同时允许去噪分支token自由聚合条件信号。通过严格隔离条件到去噪的查询操作,该方案在推理时可实现各分支解耦的KV缓存状态,从而减少冗余计算并显著提升图像生成效率。
互因果注意力
本文模型仅使用单条件输入训练,每个条件token学习与去噪token的优化交互。在多条件推理时,虽然所有条件都与去噪token正常交互,但由于未训练的跨条件token交互会导致条件间干扰(见下图5)。
该机制通过以下形式化定义实现多条件推理时的输入序列:
位置感知训练范式
虽然这种基础下采样方法对主体条件(如人脸图像)有效,但会破坏空间条件(如Canny边缘图)的几何对齐性,限制模型生成任意分辨率图像的能力。为此,引入两种定制策略:
- 位置感知插值(PAI):针对空间条件,在缩放时保持像素级对齐;
- 位置编码偏移策略(详见附录B):针对主体条件,在高度维度施加固定位移。
位置感知插值
为保持条件token与噪声token的空间一致性,提出位置感知插值(PAI)策略,在条件信号缩放过程中对位置编码进行插值。该方法确保模型能精确捕捉控制条件与生成图像像素间的空间关系。
原始图像中的位置编码序列表示为:
而调整大小后的图像的插值序列为:
这确保了调整大小后的图像中空间关系的保留。
损失函数
本文损失函数使用流匹配损失。其数学表达式如下:
通过KV缓存实现高效推理
通过利用因果注意机制,本文框架将条件分支隔离为一个与去噪时间步无关的计算模块。这种独特设计使得在推理过程中能够新颖地应用KV缓存技术。由于条件分支的计算与去噪时间步无关,在初始时间步只需预计算并存储所有条件特征的键值(KV)对一次。这些缓存的KV对在所有后续时间步中重复使用,消除了相同条件特征的冗余重新计算。这种方法通过避免N次重新计算(针对N个去噪步骤)来减少推理延迟,同时保持生成质量和模型灵活性。
实验
本节首先描述EasyControl的实现细节,然后概述评估指标。接下来,展示实验结果,包括定性和定量分析,以及消融实验。
实现细节
采用FLUX.1 dev作为预训练的DiT。对于每个空间或主题条件训练,我们使用4个A100 GPU(80GB),每个GPU的批量大小为1,学习率为1e-4,训练100,000步。在推理期间,应用流匹配采样进行25个采样步骤。
实验设置
视觉比较: 我们评估以下设置:(1) 单条件生成,(2) 使用定制模型的单条件适应,(3) 多条件集成(如下图3和下图4所示),以及(4) 分辨率适应性。定量比较:我们评估以下方面:(1) 单条件和双条件生成下的推理时间和模型参数数量(以评估效率,如下表1所示),(2) 使用面部+OpenPose作为多条件的可控性、生成质量和文本一致性,以及(3) 单条件设置下的可控性、生成质量和文本一致性。
比较方法: 对于单条件,与Controlnet、OminiControl和Uni-ControlNet进行比较。对于多条件设置,评估本文方法与几个即插即用基线方法,包括Controlnet+IP-Adapter、Controlnet+Redux和Uni-Controlnet。还比较了与ControlNet集成的几种ID定制方法[15, 35, 71]。
实验结果
定性比较
上图3 (a)比较了不同方法在单控制条件下的性能。在Canny控制下,Uni-ControlNet和ControlNet表现出颜色不一致,导致与输入文本偏离。在深度控制下,Uni-ControlNet未能生成连贯的图像,而ControlNet和OmniControl引入了伪影,例如狗和沙发的融合。在OpenPose控制下,本文方法保留了文本渲染,而其他方法则削弱或失去了这种能力。在主题控制下,IP-Adapter和Uni-ControlNet未能与参考对齐。总体而言,本文方法确保了文本一致性和在不同控制条件下的高质量生成。
上图3 (b)比较了不同方法在四个定制模型上生成图像的即插即用能力。最左列显示了来自LoRA微调的Flux.1 Dev模型的原始文本到图像(T2I)结果。ControlNet和OmniControl都牺牲了风格化,并遭受质量下降。相比之下,本文方法展示了在不失去可控性的情况下最小化风格化损失的能力,体现了我们方法的即插即用能力。
上图4展示了不同方法在多条件控制下的视觉比较。对于OpenPose和面部控制,本文方法在身份一致性和可控性方面表现优异。相比之下,其他方法在控制条件之间表现出冲突。虽然ControlNet和IP-Adapter的组合保持了可控性,但却损害了身份一致性。
ControlNet+Redux和Uni-ControlNet未能同时保持身份一致性和可控性,这在主题-深度控制场景中也有所体现(右侧第三/第四行)。对于OpenPose-Canny和Depth-Canny组合,本文方法和Uni-ControlNet都生成了符合控制条件的图像。然而,Uni-ControlNet难以与文本输入对齐,并产生质量较低的图像。Multi-ControlNet未能同时满足两个条件。这些结果展示了我们方法在无缝整合多种条件方面的灵活性。
定量比较
上表1展示了在单个A100 GPU上进行20次采样步骤时各种算法的推理时间和相应的模型参数数量。在单条件设置下,本文完整模型实现了最佳性能,推理时间为16.3秒,比没有位置感知训练范式(PATP)和KV缓存的版本减少了58%。值得注意的是,本文方法在保持最小参数数量15M的同时实现了这一效率,明显低于ControlNet的3B参数。对于双条件任务,本文完整模型实现了18.3秒的推理时间,比没有PATP和KV缓存的版本快75%。这一性能与ControlNet+IPA(16.8秒)竞争,同时保持了更小的模型大小(30M参数相比于ControlNet+IPA的4B)。结果突出了我们提出的PATP和KV缓存机制在提高推理效率方面的有效性,而不影响模型的紧凑性。
消融研究
在本文消融研究中,我们分析了去除各个模块的影响。首先,将条件注入LoRA(CIL)替换为标准LoRA结构(W.O. CIL)允许单条件控制,但无法以零样本方式推广到多条件控制。对于位置感知训练范式(PATP),我们训练了一个没有PATP的模型,其中控制信号和噪声固定在512×512分辨率,同时保持其他训练设置不变。该模型在生成高分辨率(例如1024×1024)或非正方形纵横比(例如1024×768)图像时表现出伪影和质量下降。相比之下,基于PATP的训练有效地缓解了这些问题。对于因果注意,去除因果互注意(CMA)仍允许图像生成,这得益于注意力的自适应性质。然而,条件之间的冲突降低了控制精度,导致诸如在多控制场景中改变人体姿势和移动物体位置(例如月亮)等偏差。当所有模块一起使用时,本文方法实现了最高的可控性、生成质量以及对不同分辨率和纵横比的适应性。
结论
EasyControl,一个高效且灵活的统一条件引导扩散模型框架。本文框架利用了三个关键创新:(1) 一个轻量级的条件注入LoRA模块,能够无缝整合多样的条件信号而不改变核心模型的功能。(2) 一个位置感知训练范式,确保对各种分辨率和纵横比的适应性。(3) 一个新颖的因果注意机制结合KV缓存技术,显著提高了效率。这些组件共同解决了可控图像生成中的效率和灵活性挑战。EasyControl在广泛的视觉任务中实现了强大的可控性和高质量结果。广泛的实验展示了其处理复杂的多条件场景的能力,同时扩展到多样的分辨率和纵横比。本文框架为条件图像生成提供了一个强大且可适应的解决方案。
本文转自AI生成未来 ,作者:AI生成未来
原文链接:https://mp.weixin.qq.com/s/uO55WYUYM08kLjMz7QxmyQ
