视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp
文章链接:https://arxiv.org/pdf/2412.19761
项目链接:https://genprop.github.io
亮点直击
- 定义了一个新的生成视频传播问题,目标是利用 I2V 模型的生成能力,将视频第一帧的各种变化传播到整个视频中。
- 精心设计了模型 GenProp,包含选择性内容编码器(Selective Content Encoder, SCE)、专用损失函数以及mask预测头,并提出了一个用于训练模型的合成数据生成pipeline。
- 本文的模型支持多种下游应用,如移除、插入、替换、编辑和跟踪。实验还表明,即使没有特定任务的数据进行训练,模型也能支持视频扩展(outpainting)。
- 实验结果显示,本文的模型在视频编辑和对象移除任务中优于 SOTA 方法,同时扩展了包括跟踪在内的现有任务范围。
总结速览
解决的问题
当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。
提出的方案
- 框架设计:提出了一个统一的视频生成传播框架——GenProp。
- 使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。
- 使用图像到视频生成模型(Image-to-Video, I2V)将第一帧的编辑传播至整段视频。
- 损失函数设计:引入区域感知损失(region-aware loss),确保SCE只编码未编辑区域的内容,同时优化I2V模型在修改区域的生成能力。
- 数据生成方案:利用实例级视频分割数据集生成合成数据,覆盖多种视频任务。
应用的技术
- 生成模型:通过 I2V 生成模型进行内容传播,无需依赖光流或运动预测。
- 辅助训练模块:加入辅助解码器预测修改区域,以提高编辑区域的生成质量。
- 选择性编码:通过区域感知机制,减少对已修改区域的编码干扰,增强未编辑内容的保真度。
达到的效果
- 编辑:支持对对象形状进行显著修改。
- 插入:插入的对象能够独立运动。
- 移除:可有效移除阴影、反射等对象效果。
- 跟踪:能够精确跟踪对象及其相关效果。
- 统一性:无需密集标注或任务特定的重新训练,简化了编辑流程。
方法
生成视频传播面临以下关键挑战:
- 真实性– 第一帧中的变化应自然传播到后续帧中。
- 一致性– 所有其他区域应与原始视频保持一致。
- 通用性– 模型应具有足够的通用性,适用于多种视频任务。
在 GenProp 中,通过 I2V 生成模型解决 真实性(1);引入选择性内容编码器和掩膜预测解码器,并使用区域感知损失进行训练以解决 一致性(2);通过数据生成方案和通用 I2V 模型,满足 通用性(3)。
问题定义
其中, L是一个区域感知损失,用于解耦修改区域和未修改区域,保证未修改区域的稳定性,同时允许在编辑区域进行准确的传播。为了确保最终输出符合真实视频数据的分布,合成数据仅输入到内容编码器。I2V 生成模型则使用原始视频,防止模型无意中学习到合成伪影。
模型设计
为了保持原始视频的未修改部分,并仅传播修改区域,我们将两个额外的组件集成到基本的 I2V 模型中:选择性内容编码器(Selective Content Encoder,SCE)和mask预测解码器(Mask Prediction Decoder,MPD),如下图 4 所示。
选择性内容编码器 (SCE)
SCE 架构是主生成模型初始N个块的复制版本,类似于 ControlNet 。在每个编码器块后,提取的特征将添加到 I2V 模型中的相应特征中,从而实现内容信息的平滑和层次化流动。注入层是一个具有零初始化的多层感知机(MLP),该层也会进行训练。此外,为了实现双向信息交换,I2V 模型的特征在第一个块之前与 SCE 的输入进行融合。这使得 SCE 能够识别修改区域,从而能够选择性地编码未修改区域的信息。
Mask预测解码器 (MPD)
区域感知损失 (Region-Aware Loss)
在训练过程中,使用实例分割数据来确保编辑和未编辑区域都能得到适当的监督。本文设计了区域感知损失(RA Loss),如下图 5 所示,旨在平衡两个区域的损失,即使编辑区域相对较小。
RA损失L是三个项的加权和,以确保对mask区域和非mask区域都有足够的监督。
合成数据生成
创建大规模配对视频数据集可能既昂贵又具有挑战性,尤其是对于视频传播任务,因为很难涵盖所有视频任务。为了解决这个问题,本文提出使用从视频实例分割数据集中派生的合成数据。在训练中,使用了Youtube-VOS、SAM-V2 和一个内部数据集。然而,这一数据生成pipeline可以应用于任何可用的视频实例分割数据集。
采用了多种增强技术来处理分割数据,针对不同的传播子任务进行了定制:
- 复制并粘贴:从一个视频中随机分割对象并粘贴到另一个视频中,模拟物体插入;
- Mask填充:对mask区域进行修复,在选定区域内创建逼真的编辑;
- 颜色填充:用特定的颜色填充mask区域,表示基本的物体追踪场景。
实验
实现细节
比较
由于生成视频传播是一个新问题,在GenProp的三个子任务中与现有的最先进方法进行了比较。请注意,本文的模型能够在同一个模型中处理这些任务,并进一步涵盖了如外延(outpainting)以及这些子任务的组合等附加任务,如下图1底部所示。
基于扩散的视频编辑
在下图6(a)和(b)中,将GenProp与其他基于扩散的视频编辑方法进行了比较,包括文本引导和图像引导的方法。InsV2V依赖于指令文本来控制生成。然而,由于训练数据有限,它在形状变化较大时表现不佳,并且不支持对象插入。Pika也使用文本提示在框选区域内进行编辑,但当物体形状发生显著变化时,它表现较差,且无法处理背景编辑或对象插入。AnyV2V是一个无需训练的方法,使用第一帧来引导编辑。虽然它能够处理外观变化,但在发生大规模形状或背景修改时会失败,通常会导致退化或鬼影效果。像InsV2V和Pika一样,它也无法插入物体。使用ReVideo通过先移除一个物体再重新插入来处理大规模的形状变化,但这种两阶段过程有缺点。基于框的区域可能导致模糊的边界,并且物体运动会受到原始点跟踪的影响,导致错误累积。此外,框选区域限制了它有效编辑复杂背景的能力。
视频物体移除
对于物体移除,将GenProp与传统的修补pipeline进行了比较,其中级联了两个最先进的模型来实现类似传播的修补,因为传统方法需要对所有帧进行密集的遮罩注释:SAM-V2用于遮罩跟踪,然后Propainter用于修补估计遮罩中的区域。如上图6(c)和(d)所示,GenProp具有几个优点:(1)不需要密集的遮罩注释作为输入;(2)去除物体的反射和阴影等效果;(3)去除大物体并在大面积内进行自然填充。
视频物体跟踪
在上图6(e)中将GenProp与SAM-V2在跟踪性能上进行了比较。由于SAM-V2是在大规模SA-V数据集上训练的,因此SAM-V2通常会生成比GenProp更精确的跟踪遮罩。此外,GenProp比像SAM-V2这样的实时跟踪方法要慢。然而,它有显著的优势。由于其视频生成的预训练,GenProp具有强大的物理规则理解能力。如图6所示,与SAM-V2不同,后者由于训练数据有限且偏倚,难以处理物体的反射和阴影等效果,GenProp能够稳定地跟踪这些效果。这突显了通过生成模型处理经典视觉任务的潜力。
定量结果
对多个测试集进行了定量评估。在视频编辑(如表1所示)中,在两种类型的测试集上进行了评估:(1)经典测试集,使用TGVE的DAVIS部分及其“对象变化描述”作为文本提示,重点关注对象替换和外观编辑;(2)挑战性测试集,包括从Pexels和Adobe Stock收集的30个手动选择的视频,涵盖了大规模物体替换、物体插入和背景替换。对于(2),第一帧使用商业图像编辑工具进行了编辑。对于Pika,使用在线框选工具,每个结果运行三次。
对于ReVideo,选择一个框选区域,然后使用其代码提取原始物体的运动点以跟踪外观变化。对于具有显著形状变化的编辑,首先移除原始物体,再插入新物体并分配未来轨迹。
为了评估未编辑区域的一致性,在编辑遮罩外计算PSNR,记作PSNRm。对于形状变化较大的情况,我们在原始和编辑区域上应用粗略的遮罩,仅计算这些遮罩外区域的PSNR。对于文本对齐,我们计算编辑帧与文本提示的CLIP嵌入之间的余弦相似度(CLIP-T)。对于结果质量,计算跨帧的CLIP特征距离(CLIP-I)。
如下表1所示,GenProp在大多数指标上优于其他方法,特别是在挑战性测试集上。Pika在经典测试集上表现出较好的一致性,因为当物体形状相对不变时,其边界框表现得相当好。ReVideo在多个物体上效果较差。对于物体移除,收集了15个复杂场景的视频,包括物体效果和遮挡,因为现有的测试集没有覆盖这些情况。对于SAM,我们点击物体和副作用以确保完整的覆盖。
如表2所示,GenProp实现了最高的一致性,而ReVideo可能会产生边界框伪影,ProPainter在物体效果方面表现较差。
由于质量指标往往不能准确捕捉生成结果的真实感,使用Amazon MTurk进行了用户研究,共有121名参与者。每个参与者查看由GenProp和随机基线生成的几个视频,以及原始视频和文本提示。他们被问到两个问题:
- 哪个视频与说明更匹配?
- 哪个视频在视觉上更好?
然后参与者为每个问题选择一个视频。在上面表1和表2中,展示了用户在对齐/质量上的偏好,GenProp在所有基线上均大幅领先,特别是在挑战性测试集上。
消融研究
Mask预测解码器(MPD)
在下表3中,评估了MPD在挑战性测试集上的效果,结果显示它可以改善文本对齐和一致性。如图7的第1和第2行所示,未使用MPD时,输出mask往往严重退化,导致移除质量更差。如果没有MPD的显式监督,模型可能会混淆应该传播的部分和应该保留的部分,导致在后续帧中部分移除的物体重新出现。MPD有助于解耦,使得移除结果和预测掩码更加准确,即使在严重遮挡的情况下也能实现完全物体移除。
区域感知损失 (RA Loss)
在表3中,进一步测试了所提议的RA Loss在挑战性测试集上的有效性。GenProp中的一个核心挑战是,SCE可能错误地选择原始视频的所有区域,包括编辑区域,这会因为重建损失而削弱I2V生成能力。
如下图7的第3至第5行所示,在没有RA Loss的情况下,原始物体往往会逐渐重新出现,从而阻碍了第一帧编辑(绿色摩托车)的传播。使用RA Loss后,编辑区域能够以稳定一致的方式传播。
颜色填充增强 (Color Fill Augmentation)
颜色填充增强是解决传播失败的另一个关键因素。尽管复制粘贴和遮罩填充增强使得模型能够隐式学习物体修改、替换和删除,但颜色填充增强明确地训练模型进行跟踪,引导模型在整个序列中保持第一帧所做的修改,提示为“跟踪彩色区域”。如上图7的第6至第8行所示,由于形状差异显著,将女孩变成一只小猫是具有挑战性的。然而,使用颜色填充增强后,GenProp成功地将这一大幅修改在整个序列中传播。
结论
本文设计了一种新型的生成视频传播框架——GenProp,利用I2V模型固有的视频生成能力,实现了包括物体移除、插入和跟踪等多种下游应用。通过展示其能够扩展可实现的编辑范围(例如,移除或跟踪物体及其相关效果)并生成高度逼真的视频,且不依赖于传统的中间表示(如光流或深度图),我们展示了其潜力。通过集成选择性内容编码器并利用I2V生成模型,GenProp能够始终保持未改变的内容,同时动态传播变化。合成数据和区域感知损失进一步提升了其在跨帧解耦和细化编辑方面的能力。实验结果表明,GenProp在范围和精度上均优于现有方法,确立了其作为一种强大、灵活的解决方案的地位。未来,计划扩展该模型以支持多个关键帧的编辑,并探索可以支持的其他视频任务。
本文转自AI生成未来 ,作者:AI生成未来