告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)

发布于 2025-3-19 11:54
浏览
0收藏

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

文章链接: https://arxiv.org/pdf/2503.13434 
项目链接: https://liyaowei-stu.github.io/project/BlobCtrl/


告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

亮点直击

  • BlobCtrl,一个新颖的统一框架,首次通过元素级生成和编辑实现了对视觉元素的精确和灵活操控,同时有效保留了其内在特性。
  • 设计了一种创新的双分支架构,结合精心设计的训练范式和策略,在保持外观保真度和实现视觉操控中的创意多样性之间达到了最佳平衡。
  • 引入了BlobData,这是一个专门为训练元素级视觉模型而策划的大规模数据集,同时推出了BlobBench,一个严格的评估基准,用于评估元素级生成和编辑能力。
  • 通过大量实验,证明了BlobCtrl在元素级生成和编辑任务中相比现有方法具有更优越的性能,同时保持了计算效率和实际应用性。

总结速览

解决的问题

  • 精细控制不足:当前基于扩散模型的图像生成方法缺乏对单个元素的精细控制,无法像传统工具(如Adobe Photoshop)那样进行精确的元素级操作。
  • 布局控制不连续:现有方法在元素生成和编辑时,难以实现连续的布局控制,导致元素的位置、大小和方向调整不够灵活。
  • 外观和身份保持困难:在元素级编辑过程中,现有方法难以保持元素的外观和身份信息,导致编辑后的图像不自然。
  • 视觉和谐性不足:现有方法在处理多元素组合时,难以保持视觉和谐性,导致生成的图像不协调。
  • 训练数据稀缺:缺乏大规模成对的训练数据,限制了端到端训练的模型性能。

提出的方案

  • BlobCtrl框架:引入了一个基于概率blob表示的框架,用于统一元素级生成和编辑。Blob作为视觉原语,能够有效解耦和表示空间位置、语义内容和身份信息。
  • 双分支扩散架构:提出了一个双分支扩散模型,分别处理前景和背景元素,并通过层次特征融合实现无缝的前景-背景整合。
  • 自监督训练范式:采用自监督训练范式,结合定制化的数据增强和评分函数,提高模型的泛化能力和效率。
  • 可控丢弃策略:在推理过程中,通过随机丢弃策略灵活平衡外观保真度和创意多样性。

应用的技术

  • 概率blob表示:使用二维高斯分布作为blob的几何表示,确保布局控制的连续性和视觉和谐性。
  • 可微分blob splatting:结合变分自编码器(VAE)特征,通过可微分blob splatting技术保持元素的外观和身份信息。
  • 双分支扩散模型:设计了一个双分支扩散模型,分别处理前景和背景元素,并通过层次特征融合实现无缝整合。
  • 自监督训练:采用自监督训练范式,结合随机数据增强和ID保留评分函数,提高模型的鲁棒性和泛化能力。
  • 随机丢弃策略:在推理过程中,通过随机丢弃策略灵活控制生成图像的外观保真度和多样性。

达到的效果

  • 精确的元素级操作:BlobCtrl在元素级生成和编辑任务中表现出色,能够实现精确的元素位置、大小和方向调整。
  • 连续的布局控制:通过blob的平滑性,实现了连续的布局控制,使得元素调整更加灵活。
  • 外观和身份保持:结合可微分blob splatting和VAE特征,有效保持了元素的外观和身份信息。
  • 视觉和谐性:BlobCtrl在处理多元素组合时,能够保持视觉和谐性,生成协调的图像。
  • 计算效率高:BlobCtrl在保持高效计算的同时,提供了精确和灵活的视觉内容创建解决方案。

基于Blob的元素级表示

为什么blob是一种有效的元素级表示?作为基础标记,blob精确地表示对象的位置、大小和方向。作为高斯分布,它比具有强烈形状约束的分割掩码提供了更灵活和和谐的元素级表达。定义了blob并解释了其作为元素级视觉表示的作用。

Blob公式

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

Blob不透明度

表示为高斯分布的blob能够计算空间维度上的不透明度,从而引出了blob splatting和blob合成的概念。这些概念对于实现平滑渲染和视觉元素的无缝集成至关重要。

首先计算到blob中心的平方马氏距离:

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

Blob合成与Splatting

Blob合成指的是通过深度感知的alpha合成将多个blob整合在一起的过程,这有效地解决了遮挡问题并建模了对象间的关系。数学上,blob合成的公式如下:

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

BlobCtrl的自监督范式

基于blob的表示提供了连续的空间控制以实现灵活操作、无缝合成以实现和谐整合,以及空间感知的splatting以实现视觉语义。利用这些优势,本文引入了一种自监督训练范式,以开发一个鲁棒且多功能的模型,用于元素级视觉生成和编辑。

模型架构

基于blob表示,本文提出了一种双分支扩散模型,分别处理前景和背景元素。如下图3所示,本文的模型主要由两个关键组件组成:

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

其中​​[; axis = 0]​​​和​​[; axis = 2]​​分别表示沿通道和列的连接。

为了处理元素级前景输入,我们使用了一个修改过的预训练扩散主干网络,并移除了交叉注意力层。这种方法有两个目的:预训练权重为有效的前景特征处理提供了强大的生成先验,而移除交叉注意力层确保模型仅关注视觉内容,而不受更广泛上下文的影响。

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

其中背景分支缺少空间感知语义特征,因为它倾向于完全保留信息。


在元素级编辑中,背景是被掩码的图像,其中前景元素的原始区域和目标区域都被掩码。例如,当移动一只鸟时,背景在鸟的初始位置和目标位置都有掩码。


背景分支使用完整的扩散主干网络,包括交叉注意力层。为了无缝集成前景和背景元素,我们采用分层特征融合,逐步在背景分支的多个分辨率级别注入前景特征。还使用零初始化Z以确保训练稳定。第个块的特征融合公式如下:

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

自监督训练

虽然不同位置对象的配对数据是理想的训练数据,但这种数据稀缺。先前的方法依赖于视频数据,但这引入了不必要的复杂性,降低了模型性能。


相反,本文提出了一种自监督训练策略,利用任何图像都可以被视为元素操作过程的目标结果的思路。对于每个训练图像,识别目标元素的位置,并在不同位置随机生成一个blob以模拟源位置。这模拟了操作过程,如前面图3所示,其中一个玩具似乎从随机的左侧位置移动到其实际的右侧位置。我们在训练期间使用噪声预测评分函数优化模型。

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

身份保留与场景协调

随机数据增强:为了防止模型默认采用简单的复制粘贴解决方案,在训练期间对前景元素进行广泛的数据增强。这包括随机变换,如颜色抖动、缩放、旋转、擦除和透视变化。这些增强有两个主要目的:它们迫使模型根据指定的布局和外观和谐地放置前景元素,而随机擦除则培养了处理不完整元素的强大修复能力。这种方法确保模型学会灵活且上下文相关地生成和操作元素,保持与背景的视觉一致性。


身份保留评分函数:为了有效解耦前景和背景分支——确保前景分支注入元素级信息,而背景分支整合这些元素——本文提出了一个身份保留评分函数。在训练期间,保留前景分支中的扩散模型输出层(在推理期间丢弃),并应用一个仅在前景元素区域内操作的评分函数。

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

可控的保真度-多样性权衡

为了实现外观保真度和创意多样性之间的灵活控制,在训练期间实施了随机丢弃策略。首先随机丢弃前景分支的权重,使模型能够在基于全局文本信息自由生成前景元素和严格保留给定前景身份之间进行调整。其次随机丢弃要splat的语义特征和前景元素的VAE特征,从而灵活控制语义和外观之间的平衡。应用:

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

实验

数据集、基准和指标

BlobData构建:为了训练BlobCtrl,构建了BlobData(1.86M样本),数据来源于BrushData,包含图像、分割掩码、拟合的椭圆参数(以及导出的二维高斯分布)和描述性文本。数据集构建过程包括:(1) 过滤源图像,保留短边超过480像素且具有有效实例分割掩码的图像。(2) 应用掩码过滤标准,保留面积占图像总面积比例在0.01到0.9之间的掩码,并排除位于图像边界的掩码。(3) 对过滤后的掩码拟合椭圆参数并导出二维高斯分布。(4) 移除无效样本,特别是协方差值低于1e-5的样本。(5) 使用InternVL-2.5生成详细的图像描述。


BlobBench构建:现有的评估基准如DreamBooth、COCOE、COCO Val和CreatiLayout仅评估接地能力或身份保留,但无法同时评估两者。它们还缺乏对完整元素级操作(如组合、移动、调整大小、删除和替换)的覆盖。本文引入了BlobBench,这是一个包含100张精选图像的综合基准,均匀分布在不同的元素级操作中。每张图像都经过专家标注,包括椭圆参数、前景掩码和详细的文本描述。BlobBench涵盖了真实世界和AI生成的图像,涵盖室内外场景、动物和风景等多种场景,确保评估的公平性和有效性。

评估指标:本文使用客观指标和人工评估来评估BlobCtrl,包括客观评估(身份保留、接地准确性、生成质量和协调性)和主观评估。

实现细节

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

评估细节:在BlobBench基准上评估BlobCtrl,并与三种最先进的方法进行比较:GliGen,一种基于边界框的文本到图像模型;Anydoor,一种基于分割掩码的图像到图像模型;以及Magic Fixup,专门用于协调变换区域。为了系统评估五种基本元素级操作(组合、移动、调整大小、替换和删除),我们为基线方法设计了特定的工作流程。对于Anydoor,我们通过将背景传送到前景区域来创建干净的背景,然后通过将前景对象传送到目标位置进行编辑。对于GliGen,使用BlobCtrl移除元素以生成干净的背景,然后应用边界框约束以及文本和图像条件。对于Magic Fixup,我们使用编辑操作的刚性变换对前景元素进行变形,然后进行场景协调。

定量评估

与最先进方法的比较:如下表1和表2所示,BlobCtrl在所有评估指标上均表现出显著改进:

  • 身份保留:对于需要身份保留的任务(组合、移动、调整大小、替换),BlobCtrl的平均CLIP-I(87.48 vs. 84.28)和DINO(87.45 vs. 81.70)得分显著高于最佳基线。对于删除任务,本文的方法显示出较低的身份得分(CLIP-I和DINO得分的平均值)(21.95 vs. 26.55),表明更彻底的元素消除。
  • 布局控制:BlobCtrl表现出优越的空间控制精度,相对于之前的最佳方法,布局MSE降低了8.11%。这验证了基于概率blob表示在精确元素操作中的有效性。
  • 生成质量:本文的方法在标准质量指标上创造了新的最先进性能基准:FID 102.8094,LPIPS 0.2196,PSNR 32.1571,SSIM 0.7507。这些结果证明了BlobCtrl在生成高保真输出的同时保持全局视觉一致性的能力。

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

将这些显著改进归功于两项关键创新:(1) 基于概率blob的表示,能够精确控制元素属性;(2) 自监督训练范式,有效解耦并重新组合视觉元素的身份、语义和布局信息,同时消除了由不必要的相机运动和其他视频特定伪影引起的性能下降,这些问题困扰了之前的方法。

人工评估:下表3中报告的主观评估结果显示了BlobCtrl在所有评估标准上的卓越表现。从数量上看,本文的方法以显著优势超越了之前的最佳方法,建立了新的最先进性能:在外观保真度上,本文的方法获得了87.2%的偏好率,而之前的最佳方法为82.5%;在布局准确性上,偏好率为86.5%,而之前的最佳方法为81.7%;在视觉协调性上,偏好率为82.1%,而之前的最佳方法为80.3%。这些在人工评估指标上的显著改进表明,BlobCtrl生成的结果对人类观察者来说更具视觉吸引力和自然性,使其更适合实际应用。

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

定性评估

下图4展示了BlobCtrl与最先进方法在各种元素级操作场景中的定性比较。结果展示了本文方法的几个关键优势:

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

  • Anydoor:在元素操作过程中难以准确保留身份,并且在元素级删除方面表现出局限性,通常会留下伪影或不完整的修改。
  • GliGen:虽然提供了布局控制能力,但无法有效保留操作元素的视觉外观和身份,导致输出不一致。
  • Magic Mixup:协调能力不足,导致修改元素与其周围环境之间的视觉不一致。

相比之下,BlobCtrl在所有方面都表现出卓越的性能——更好地泛化到多样化场景、更准确的身份保留、精确的布局控制,同时保持视觉一致性。

消融实验

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

身份保留评分函数的消融实验:本文进行了一项消融实验,以分析身份保留评分函数的有效性。如下图6所示,在相同的训练步骤下,使用身份保留评分函数的模型的噪声预测损失(0.0235)显著低于未使用该函数的模型(0.0399),表明其收敛速度更快。为了更好地理解该评分函数如何影响生成过程,我们使用前景分支预测的噪声对去噪结果进行了可视化。可视化结果表明,在身份保留评分函数的指导下,前景分支有效地专注于生成前景内容,验证了我们通过该机制解耦前景和背景元素生成的设计选择。

告别粗糙AI生成!BlobCtrl带你玩转元素级视觉编辑,效果炸裂!(北大&港中文&腾讯)-AI.x社区

讨论

结论:本文介绍了BlobCtrl,一个基于概率blob表示的统一框架,集成了元素级生成和编辑功能。Blob作为视觉原语,用于编码空间布局、语义和身份信息,从而实现精确的元素操作。通过自监督训练的双分支架构,BlobCtrl能够保留前景身份并保持背景协调性。随机数据增强和丢弃策略提供了在外观保真度和创意多样性之间的灵活控制。在BlobBench上的大量实验表明,BlobCtrl在元素级操作任务中达到了最先进的性能。


局限性与未来工作:尽管BlobCtrl在元素级操作中表现出强大的能力,但目前它仅支持在单次模型前向传递中迭代操作单个元素。幸运的是,基于blob的表示天然支持深度感知的合成,为未来的工作开辟了有前景的方向。 


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/VVlykvy8h7K3hFDbhIEs1A​

已于2025-3-19 11:55:17修改
收藏
回复
举报
回复
相关推荐
张发恩创作的人工智能技术文章
觉得TA不错?点个关注精彩不错过
6
帖子
89
声望
0
粉丝
社区精华内容