
CVPR 2025 | 数据荒漠终结者!DoraCycle跨模态自循环算法:让生成不再依赖配对数据
论文链接:https://arxiv.org/pdf/2503.03651
Git链接:https://github.com/showlab/DoraCycle
亮点直击
- 无配对数据的领域适应:DoraCycle通过循环一致性学习,首次实现了仅使用无配对数据进行生成模型的领域适应,显著降低了数据获取成本。
- 跨模态对齐的自监督学习:通过双向映射和同一模态内的损失计算,实现了视觉和语言之间的跨模态对齐,无需成对数据监督。
- 训练稳定性增强:引入EMA模型和梯度裁剪技术,解决了多步推理中的梯度爆炸问题,提升了训练过程的稳定性和伪数据生成的质量。
- 灵活的任务适应性:DoraCycle既能处理无需成对知识的任务(如风格化),也能有效结合少量配对数据完成需要新知识的任务(如身份生成),具有广泛的应用潜力。
总结速览
解决的问题
- 复杂领域适应性问题:生成模型在适应复杂领域时,通常需要大量成对的文本-图像数据,但这类数据难以获取且成本高昂。
- 无配对数据的利用:现有的生成模型难以有效利用单模态(如视觉或语言)的无配对数据进行领域适应。
- 跨模态对齐的挑战:在无配对数据的情况下,如何实现视觉和语言之间的跨模态对齐,以支持生成模型的领域适应。
提出的方案
- DoraCycle框架:提出了一种基于无配对数据的循环一致性学习框架,通过双向映射(文本-图像-文本和图像-文本-图像)实现跨模态对齐。
- 自监督学习:通过计算同一模态内的交叉熵损失,避免了成对数据的需求,实现了模型的自进化。
- 训练稳定性增强:引入EMA(指数移动平均)模型和梯度裁剪技术,提升训练稳定性,避免梯度爆炸和优化方向冲突。
应用的技术
- 多模态生成模型:利用预训练的统一生成模型(如视觉-语言对齐模型)进行跨模态映射。
- 循环一致性学习:通过文本-图像-文本(T cycle)和图像-文本-图像(I cycle)两个循环路径,实现无配对数据的领域适应。
- 梯度优化技术:采用梯度裁剪和EMA模型,确保训练过程的稳定性和伪数据生成的质量。
####- 达到的效果
- 无配对数据的领域适应:对于风格化等不需要成对知识的任务,DoraCycle仅使用无配对数据即可有效适应目标领域。
- 小规模配对数据的有效利用:对于需要新配对知识的任务(如特定身份生成),DoraCycle结合少量配对数据和大规模无配对数据,实现了高效的领域适应。
- 减少对配对数据的依赖:相比现有方法,DoraCycle显著减少了对成对数据的需求,同时达到了可比甚至更优的性能。
方法
本文所提出的 DoraCycle 框架,如下图2所示,建立在为涉及视觉和语言的多模态任务设计的统一生成模型之上。统一模型使用单个transformer来学习视觉和语言之间的双向映射,提供了一个强大的骨干网络,能够处理和生成不同的模态。对于描述生成,模型接收图像 token 并预测相应的文本 token,而对于图像生成,它接收文本 token 并预测图像 token。这种多功能性使得统一模型非常适合作为我们提出的框架的基础。
多模态循环
为了使用无配对数据适应统一模型以进行面向领域的适应,本文设计了两个多模态循环:图像-文本-图像循环(I 循环)和文本-图像-文本循环(T 循环)。每个循环利用单一模态的数据,使模型能够在不依赖配对数据的情况下进行适应。
通过利用这两个循环,本文框架迫使模型优化其对图像和文本表示的生成理解,确保输入和输出之间的一致性,同时有效利用无配对数据将统一模型适应到目标域。
高效训练:在两个循环的中间步骤中,生成中间表示(即字幕或图像)需要多次前向传递。这是因为生成过程涉及多次预测下一个 token 或被掩码的 token。通过所有这些步骤反向传播梯度的计算成本极高。因此,我们首先使用推理模式下的模型生成中间结果作为伪配对数据,然后在教师强制方案(teacher-forcing scheme)中将其用作前半部分循环的真实值。通过这种方式,我们将前向传递的次数减少到两次,即一次用于生成中间结果,一次用于生成最终输出,从而使整个训练过程更加内存高效。
Token 可微性:由于每个循环中的中间输出是离散的 token,无法直接传播梯度,因此我们采用 Gumbel-Softmax 使这些 token 表示可微。
优化稳定性
每个循环在前向传递中两次使用相同的统一模型,这会导致优化不稳定。为了稳定训练过程,我们采用了指数移动平均(Exponential Moving Average, EMA)训练技术。维护一个模型的影子版本,称为 EMA 模型,该模型使用主模型参数的指数衰减平均值进行更新。
在每次训练步骤中,EMA 版本的模型用于生成中间表示 token(例如伪图像或文本 token),这些 token 在训练期间充当伪真实值。通过使用来自更新较慢的 EMA 模型的稳定目标,我们可以减轻优化不稳定的风险。因此,主模型能够从更一致和可靠的中间目标中学习,而不是受到训练早期阶段波动的影响。
平衡两个循环
T 循环往往比 I 循环收敛得更快,主要是因为文本数据本质上是单维的,并且比图像更容易学习。这种优化不平衡会导致模型的一种崩溃,即模型倾向于为图像生成无关但自一致的描述,最终降低图像-文本对齐能力。
实验
实现细节
Show-o 是目前唯一完全开源的统一生成模型,具有完整的预训练权重和训练代码,包括其理解和生成能力。因此,将 DoraCycle 基于Show-o 并进行了相应的实验。基础模型是一个统一的 transformer 模型,通过预测离散的文本和视觉 token 来执行理解和图像生成任务。我们在注意力层的第 7 到 24 层的 Q 投影和 V 投影中插入了可训练的低秩适应(LoRA)模块。LoRA 的秩设置为 32。 设置为 0.1,以平衡两个循环的优化。
面向领域的适应
无配对训练:对于不需要强相关配对知识的任务,DoraCycle 可以完全使用无配对数据学习目标领域。例如,为了学习赛博朋克风格,收集了 300 张赛博朋克风格的图像作为 I 循环的输入,并使用基础模型预训练数据集中的文本数据作为 T 循环的输入,同时自动将关键词“赛博朋克风格”注入文本中,提示模型我们希望的目标风格。
实验结果如下图 3 所示。给定相同的文本提示以生成赛博朋克风格的图像,图3 (a) 显示了未经额外训练的基础模型生成的图像。可以观察到,基础模型添加了一些赛博朋克元素,例如霓虹灯,但整体氛围与目标风格不太一致。图 3 (d) 显示了使用 DoraCycle 训练的适应模型生成的图像,其与目标风格很好地契合。传统的文本到图像定制或适应方法,例如 DreamBooth,依赖于配对数据进行训练。因此,我们通过为收集的图像添加字幕来模拟用户创建的配对数据,并将其分为两组。一组仅包含 10 个配对示例,这对用户来说是可接受的工作量,而另一组包含所有 300 张图像的字幕,这对用户来说是劳动密集型且不切实际的。图 3 (b) 显示了在 10 个配对示例上训练的模型生成的图像。该模型难以生成良好的风格化图像,可能是因为室内书架与赛博朋克风格的结合对模型来说过于新颖,无法从有限的配对数据中很好地泛化。图 3 (c) 显示了在 300 个配对示例上训练的模型生成的图像,其输出效果更好。相比之下,使用 DoraCycle 训练的模型不需要手动添加字幕,显著减少了用户的工作量。
图 3 (e) 展示了通过 DoraCycle 训练的适应模型通过图像-文本-图像转换保持了语义一致性。输入图像被转换为文本描述,然后重建为图像。结果表明,适应模型在整个多模态循环中成功捕捉并保留了原始图像中的关键视觉组件。值得注意的是,角色的身份和环境的细节都得到了保留,表明在目标领域中具有有效的双向理解和生成能力。此外,新生成的图像结合了从目标领域学习到的风格,展示了所学知识对野外图像的泛化能力。
学习配对知识对于需要学习某些配对知识的任务,例如将身份名称与其视觉外观关联起来,DoraCycle 可以结合少量配对数据来学习这种关联,同时利用大量无配对数据全面学习目标领域的一般特征。具体来说,在每批数据中,对于具有配对真实值的数据,我们计算 token 预测损失,并将其包含在循环中,使用真实值作为伪中间生成结果,并计算循环损失。对于无配对数据,我们计算无配对循环损失。
例如,当将模型适应到领域 1:《黑神话:悟空》和领域 2:《哆啦A梦》时,我们为每个独特身份标注 1-3 张图像,并在字幕中指定身份名称。对于每个领域,收集了 2k 张图像(主要从在线视频中采样),并独立收集了文本描述,这些描述通过 ChatGPT 进一步扩展到 1k。最终使用 DoraCycle 训练的适应模型在文本到图像生成和图像到文本生成方面表现出色,如图 4 所示。
在文本到图像结果方面,使用 DoraCycle 训练的模型有效地生成了与目标领域高度一致的图像。在领域1(《黑神话:悟空》)中,生成的图像准确地描绘了领域特定的视觉元素,例如角色外观的复杂细节和整体奇幻氛围。这表明模型成功学会了从文本提示中泛化视觉特征,生成目标领域内的逼真图像。同样,在领域2(《哆啦A梦》)中,生成的图像保留了标志性的卡通美学,并捕捉到了角色和场景的关键视觉细节,展示了有效的领域适应能力。
在图像到文本任务中,模型在生成上下文准确的描述方面表现良好。在领域1中,生成的描述提供了对角色、其属性和背景的丰富描述,有效地反映了输入图像中的视觉元素。在领域2中,描述简洁地描述了角色、其行为及其环境,保持了与视觉风格的一致性。模型生成准确描述的能力突显了其对领域视觉组件的强大理解。
此外,可以观察到模型在处理未标注配对数据的视觉元素时的一个有趣现象。例如,在下图4(w) 中,模型将铜锣烧(一种甜豆沙馅的煎饼)描述为“甜甜圈”。这可能是由于铜锣烧的动漫风格表现形式较为新颖,基础模型和无配对训练均未提供关于它的特定文本-视觉配对知识。另一方面,在图4(x) 所示的示例中,我们使用特殊 token 将白猫标注为具有配对文本和视觉数据的角色,其名称为“<soc> 白猫 <eoc>”。有趣的是,尽管没有为黑猫提供配对标注,模型在生成描述时仍为其预测了特殊 token “<soc> 黑猫 <eoc>”。这表明模型在学习目标领域时自主将黑猫归类为角色,表明其可能尝试将学到的知识从一种实体泛化到类似实体。
使用特殊 token 增强学习如下图5所示,通过实验发现模型经常混淆目标领域中的多个新概念。图5(a) 显示了未经训练的基础模型生成的图像,输入为角色名称。图5(b) 显示了训练后模型生成的角色。在训练过程中,角色名称直接包含在文本中而未进行特殊处理,导致角色之间的属性混淆。角色名称的 token 化长度不一也增加了学习难度。为了解决这个问题,引入了一个简单而高效的解决方案:在角色名称周围添加特殊 token。引入了角色开始(<soc>)和角色结束(<eoc>)token 来包围角色名称,这显著增强了对新概念的学习。如图 5 (c) 所示,引入特殊 token 改善了角色与其名称之间的对齐。
对比实验
使用 Storyboard20K数据集进行定量对比实验。来自同一数据源的故事板被分组形成一个领域,包含图像和描述性文本。数据在三种不同设置下使用,即完全无配对、仅配对以及配对加无配对数据,如下表 1 所示。
对比方法包括 DreamBooth 和 ITIT。将 DreamBooth 实现为配对训练的基线方法,通过在统一模型上应用 LoRA 微调。ITIT 的原始设计不同,其图像和文本解码器是分离的模型,且其代码尚未公开。对其进行了调整并重新实现,以适用于我们的统一模型架构。
使用自动评估和人工评估来比较不同方法的性能。对于自动评估,使用 FID 来衡量生成图像与目标领域图像之间的分布差异,并使用 CIDEr 计算生成文本与真实值之间的误差。对于人工评估,我们为模型的生成结果创建了 100 个问题,每个问题由三位不同的人工评分者评分。评分者被要求评估图像与文本之间的对齐程度,评分范围为 1 到 5,其中 1 表示完全不相关,5 表示完全对齐。
前面表 1 中的实验结果表明,所提出的DoraCycle在多种数据设置下表现优异。具体来说,当结合使用配对和无配对数据时,DoraCycle 优于 ITIT。与严重依赖配对数据的 DreamBooth 相比,DoraCycle 在使用相同比例的配对数据(即 10% 配对数据)时表现更好,这表明 90% 无配对数据带来的优势。虽然使用 100% 配对数据的 DreamBooth 获得了最佳评估分数,但使用 10% 配对数据和 90% 无配对数据的 DoraCycle 的分数与之相当。
表1还显示了 DoraCycle 在不同循环设置下的性能差异。结果表明,在没有 T 循环且仅使用 I 循环的情况下,适应模型的字幕生成能力显著下降。相反,如果仅使用 T 循环而不使用 I 循环,FID 分数显著增加,表明生成的图像分布与目标分布不匹配。
消融实验
下表 2 显示,从 DoraCycle 中移除关键组件会显著影响性能。在没有 EMA 的情况下,FID 分数从 25.37 增加到 27.19,表明由于训练稳定性降低,图像质量下降。移除梯度手术(Gradient Surgery, GS)会降低 CIDEr 分数并增加 FID,表明性能变差。这证明了减轻两个循环优化方向之间干扰的重要性。完整的 DoraCycle 框架,包含 EMA 和 GS,在所有指标上表现最佳,证明了这些组件在实现更好优化中的重要性。
数据集样例
结论
DoraCycle,通过多模态循环将统一生成模型适应到目标领域。通过利用图像-文本-图像和文本-图像-文本循环,DoraCycle 将学习目标转换为同一模态,从而能够使用无配对数据进行有效优化。实验表明,DoraCycle 可以仅使用无配对数据将统一模型适应到目标域,或在必要时结合少量配对数据以学习特定概念。结果表明,DoraCycle 在各种设置下实现了先进或可比的性能。利用无配对数据拓宽了DoraCycle的应用潜力,使其非常适合配对数据稀缺或难以收集的领域适应任务。
本文转自AI生成未来 ,作者:AI生成未来
原文链接:https://mp.weixin.qq.com/s/7cVncFNGJQmkdIDO7cUN2g
