ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级

发布于 2025-2-28 10:36
浏览
0收藏

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

论文链接:https://arxiv.org/pdf/2502.17258
git 链接:https://knightyxp.github.io/VideoGrain_project_page/

亮点直击

  • 首次尝试多粒度视频编辑的方法。支持类别级、实例级和局部级的编辑。
  • 提出了一个新颖的框架,称为VideoGrain,该框架通过调节时空跨注意力和自注意力,实现文本到区域的控制以及区域间特征的分离。
  • 在无需调整任何参数的情况下,在现有基准测试和真实世界视频上都取得了定性和定量的最新成果。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

总结速览

解决的问题

  • 多粒度视频编辑的挑战,特别是文本到区域控制的语义不匹配和扩散模型内部的特征耦合问题。

提出的方案

  • 提出了一种名为VideoGrain的零样本方法,通过调节时空(跨注意力和自注意力)机制,实现对视频内容的精细化控制。

应用的技术

  • 增强局部提示对其对应空间解耦区域的注意力,减少跨注意力中与无关区域的交互。
  • 提升区域内部的感知能力,减少区域之间的干扰,以改进特征分离。

达到的效果

  • 实现了支持类别级、实例级和局部级的多粒度视频编辑。
  • 在无需调整参数的情况下,在现有基准测试和真实世界视频上取得了定性和定量的SOTA成果。

方法

动机

为了解释为什么以往的方法在实例级视频编辑中失败(见下图2),首先对扩散模型中的自注意力和跨注意力特征进行了基本分析。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

如下图3(b)所示,在DDIM反演过程中对每帧的自注意力特征应用了K-Means聚类。虽然聚类捕捉到了清晰的语义布局,但未能区分不同的实例(例如,“左边的男人”和“右边的男人”)。增加聚类数量会导致部分级别的更细分割,但无法解决这个问题,这表明实例间特征的同质性限制了扩散模型在多粒度视频编辑中的有效性。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

接下来,尝试使用SDEdit将同一类的两个男人编辑为不同的实例。然而,上图3(d)显示,“钢铁侠”和“蜘蛛侠”的权重在左边的男人上重叠,“花朵”的权重泄漏到右边的男人上,导致了(c)中的编辑失败。因此,为了实现有效的多粒度编辑,提出以下问题:我们能否调节注意力,以确保每个局部编辑的注意力权重准确分布在预期区域?


本文提出了VideoGrain的两个关键设计:(1) 调节跨注意力以引导文本特征聚集在相应的空间解耦区域,从而实现文本到区域的控制。(2) 在时空轴上调节自注意力,以增强区域内的焦点并减少区域间的干扰,避免扩散模型中的特征耦合。

问题表述

本工作的目的是基于给定的提示在多个区域进行多粒度视频编辑。这涉及三个层次的编辑:

(1) 类别级编辑: 编辑同一类别内的对象。(例如,将两个男人变为“蜘蛛侠”,两者都属于人类类别,如上图2第二列所示)


(2) 实例级编辑: 将每个单独实例编辑为不同的对象。(例如,将左边的男人编辑为“蜘蛛侠”,右边的男人编辑为“北极熊”,如图2第三列所示)


(3) 部分级编辑: 对单个实例的特定元素进行部分级别的编辑。(例如,在将右边的男人编辑为“北极熊”时添加“太阳镜”,如上图2第四列所示)

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

整体框架

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

与通过一个全局文本提示控制所有帧的方法不同,VideoGrain 允许在去噪过程中指定配对的实例级或部分级提示及其位置。我们的方法还可以灵活地结合 ControlNet 条件e ,例如深度图或姿态图,以提供结构化条件。

时空布局引导的注意力

基于前文的观察,跨注意力权重分布与编辑结果密切相关。同时,自注意力对于生成时间一致性视频也至关重要。然而,一个区域内的像素可能会关注到外部或相似的区域,这对多粒度视频编辑造成了障碍。因此需要调节自注意力和跨注意力,使每个像素或局部提示仅关注正确的区域。

为实现这一目标,通过统一的“增强正向关联、减少负向关联”机制调节跨注意力和自注意力。具体而言,对于查询特征的第i帧,我们对查询-键(Query-Key)条件映射QK进行如下调节:

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

调节跨注意力以实现文本到区域控制  在跨注意力层中,文本特征作为键(key)和值(value),并与来自视频潜变量的查询特征进行交互。由于每个实例的外观和位置与跨注意力权重分布密切相关,我们的目标是将每个实例的文本特征聚集到对应的位置。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

如上图4(中右)所示,在添加正值和减去负值后,“Spiderman”的原始跨注意力权重(例如p,)被放大并集中在左边的人身上。而“polar”“bear”的干扰权重则集中在右边的人身上。这表明我们的调节将每个提示的权重重新分配到目标区域上,实现了精确的文本到区域控制。


调节自注意力以保持特征分离 为了使T2I模型适应T2V编辑,将整个视频视为“一个更大的图像”,用时空自注意力替换空间注意力,同时保留预训练权重。这增强了跨帧交互,并提供了更广泛的视觉上下文。然而,简单的自注意力可能导致区域关注不相关或相似的区域(例如,图4底部,调节前查询p关注两个人),这会导致纹理混合。为了解决这个问题,需要加强同一区域内的正向关注,并限制不同区域之间的负向交互。


如上图4(左下)所示,最大跨帧扩散特征表示同一区域内标记之间的最强响应。请注意,DIFT使用这一点来匹配不同的图像,而我们专注于生成过程中的跨帧对应和区域内部注意力调节。然而,负向的区域间对应对于解耦特征混合同样重要。超越DIFT,我们发现最小的跨帧扩散特征相似性可以有效地捕捉不同区域之间标记的关系。因此,定义时空正/负值为:

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

为了确保每个patch关注区域内的特征,同时避免区域间特征的交互,我们定义了时空查询-键条件映射:

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

对于帧索引i和j,当token属于跨帧的不同实例时,其值为零。 


如上图4底部右侧所示,在应用我们的自注意力调节后,来自左侧人物鼻子(例如,)的查询特征仅关注左侧实例,避免了对右侧实例的干扰。这表明,我们的自注意力调节打破了扩散模型的类别级特征对应性,确保了实例级的特征分离。

实验

实验设置

在实验中,采用预训练的Stable Diffusion v1.5作为基础模型,使用50步的DDIM反演和去噪过程。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

所有实验均在NVIDIA A40 GPU上进行。使用包含76个视频-文本对的数据集评估VideoGrain,包括来自DAVIS (Perazzi et al., 2016)、TGVE1以及互联网的视频,每个视频包含16-32帧。使用四个自动化指标进行评估:CLIP-T、CLIP-F、Warp-Err和Q-edit,这些指标参考(Wu et al., 2022; Cong et al., 2023),并全部缩放为100以便于展示。


对于基线方法,与以下T2I方法进行比较,包括FateZero、ControlVideo、TokenFlow、GroundVideo以及T2V方法DMT。为了确保时间一致性,我们采用FLATTEN和PnP。为了公平起见,所有T2I基线均配备相同的ControlNet条件。

结果

在涵盖类别级、实例级和部分级编辑的视频上评估了VideoGrain。本文的方法展示了在处理动物方面的多功能性,例如将“狼”转变为“猪”(下图5,左上)。对于实例级编辑,可以分别修改车辆(例如,将“SUV”转变为“消防车”,将“货车”转变为“校车”),如下图5右上所示。VideoGrain在编辑复杂遮挡场景中的多个实例方面表现出色,例如“蜘蛛侠和神奇女侠打羽毛球”(下图5,中左)。以前的方法往往在处理这种非刚性运动时表现不佳。此外,本文的方法能够进行多区域编辑,既可以编辑前景也可以编辑背景,如肥皂盒场景中,背景变为“森林中的湖上长满苔藓的石桥”(下图5,中右)。得益于精确的注意力权重分配,可以无缝交换身份,例如在慢跑场景中,“钢铁侠”和“蜘蛛侠”交换身份(下图5,左下)。对于部分级编辑,VideoGrain在调整角色穿上超人服装的同时保持太阳镜不变方面表现出色(下图5,右下)。总体而言,对于多粒度编辑,VideoGrain表现出色。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

定性和定量比较

定性比较。下图6展示了VideoGrain与基线方法之间的比较,包括T2I和T2V方法的实例级和部分级编辑。为公平起见,所有T2I方法都使用ControlNet条件。(1) 动物实例:在左列,T2I方法如FateZero、ControlVideo和TokenFlow由于扩散模型中相同类别特征耦合,将两只猫都编辑成熊猫,未能进行单独编辑。即使是具有视频生成先验的DMT,也仍然将熊猫和玩具贵宾犬的特征混合在一起。相比之下,VideoGrain成功地将一个编辑成熊猫,另一个编辑成玩具贵宾犬。(2) 人类实例:在中间列,基线方法在相同类别特征耦合方面表现不佳,部分将两个人都编辑成钢铁侠。DMT和Ground-A-Video也未能遵循用户意图,错误地编辑了左右实例。VideoGrain则正确地将右侧人物转变为猴子,打破了人类类别的限制。(3) 部分级编辑:在第三列,VideoGrain处理部分级编辑,如太阳镜和拳击手套。ControlVideo编辑了手套,但在太阳镜和运动一致性方面表现不佳。TokenFlow和DMT编辑了太阳镜,但未能修改手套或背景。相比之下,VideoGrain实现了实例级和部分级编辑,显著优于以前的方法。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

定量比较。使用自动化指标和人工评估来比较不同方法的性能。CLIP-T计算输入提示与所有视频帧之间的平均余弦相似度,而CLIP-F测量连续帧之间的平均余弦相似度。此外,Warp-Err通过根据源视频的光流(使用RAFT-Large提取)扭曲编辑后的视频帧来捕捉像素级差异。为了提供更全面的视频编辑质量度量,遵循(Cong et al., 2023)并使用Q-edit,定义为CLIP-T/Warp-Err。为了清晰起见,我们将所有自动化指标缩放为100。在人工评估方面,我们评估了三个关键方面:编辑准确性(每个局部编辑是否准确应用)、时间一致性(参与者评估视频帧之间的连贯性)和整体编辑质量。


本工作邀请了20名参与者对76个视频-文本对在这三个标准上进行评分,评分范围为20到100,遵循(Jeong & Ye, 2023)。如下表1所示,VideoGrain在T2I和T2V方法中始终表现优异。这主要归功于ST-Layout Attn的精确文本到区域控制和保持区域之间的特征分离。因此,我们的方法在CLIP-T和编辑准确性得分上显著高于其他基线。改进的Warp-Err和时间一致性指标进一步表明VideoGrain提供了时间上连贯的视频编辑。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

效率比较。为了评估效率,在单个A6000 GPU上比较了基线方法和VideoGrain对16帧视频的编辑。指标包括编辑时间(执行一次编辑所需的时间)以及GPU和CPU内存使用情况。从下表2可以看出,我们的方法以最低的内存使用实现了最快的编辑时间,表明其计算效率。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

消融研究

为了评估提出的ST-Layout Attn中不同组件的贡献,首先评估我们的注意力机制是否能够实现注意力权重分布,然后解耦自注意力调制和交叉注意力调制以评估它们各自的有效性。


注意力权重分布。评估ST-Layout Attn对注意力权重分布的影响。如下图7所示,目标提示为“钢铁侠在雪地网球场打网球。”我们可视化了“人”的交叉注意力图以评估权重分布。没有ST-Layout Attn时,特征混合发生,“雪”的权重溢出到“钢铁侠”上。有了ST-Layout Attn,人物的权重被正确分配。这是因为我们在交叉和自注意力中增强了正对配对分数并抑制了负对配对分数。这使得“钢铁侠”和“雪”的精确、独立编辑成为可能。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

交叉注意力调制。在下图8和下表3中,展示了不同设置下的视频编辑结果:(1) 基线 (2) 基线 + 交叉注意力调制 (3) 基线 + 交叉注意力调制 + 自注意力调制。如下图8右上所示,直接编辑未能区分左右实例,导致错误(左)或无编辑(右)。然而,当配备交叉注意力调制时,我们实现了准确的文本到区域控制,从而分别将左侧人物编辑为“钢铁侠”和右侧人物为“蜘蛛侠”。下表3中的定量结果表明,使用交叉注意力调制(第二行),CLIP-T增加了7.4%,Q-edit增加了63.9%。这证明了我们交叉注意力调制的有效性。

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级-AI.x社区

自注意力调制。然而,仅调制交叉注意力仍会导致结构失真,例如蜘蛛网出现在左侧人物上。这是由于相同类别特征(例如,人类)的耦合造成的。使用我们的自注意力调制时,特征混合显著减少,左侧人物保留了独特的物体特征。这是通过降低不同实例之间的负对分数,同时增加同一实例内的正对分数来实现的。因此,在优化区域中生成了更多部分级细节,例如独特的蓝色侧面。表3中Warp-Err减少43.9%和Q-edit增加80.6%的定量结果进一步证明了自注意力调制的有效性。

结论

本文旨在解决多粒度视频编辑的问题,包括类别级、实例级和部分级的视频编辑。据我们所知,这是对该任务的首次尝试。在这个任务中,我们发现关键问题是扩散模型将不同实例视为同类特征,直接的全局编辑会混合不同的局部区域。为了解决这些问题,我们提出了VideoGrain,以调制时空交叉和自注意力进行文本到区域的控制,同时保持区域之间的特征分离。在交叉注意力中,我们增强每个局部提示对其对应空间解耦区域的关注,同时抑制对不相关区域的注意力,从而实现文本到区域的控制。在自注意力中,我们增加区域内的感知并减少区域间的交互以保持区域之间的特征分离。大量实验表明,我们的VideoGrain在类别级、实例级和部分级视频编辑上均优于以往的视频编辑方法。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/m_YmsZk80cQFBnYOgwR1yQ​

收藏
回复
举报
回复
相关推荐