
修得快,还修得准!新一代视频修复技术FloED性能超越所有扩散模型! | 港科大&达摩院
文章链接:https://arxiv.org/pdf/2412.00857
项目链接:https://nevsnev.github.io/FloED/
开源地址:https://github.com/NevSNev/FloED-main
亮点直击
- 新颖的视频修复模型。提出了一种专用的双分支架构,通过流适配器(flow adapters)集成光流引导,从而增强时空一致性并生成协调的结果。
- 高效的去噪过程。引入了一种无需训练的隐空间插值技术,利用光流加速多步去噪过程。结合流注意力缓存机制,FloED 有效降低了由光流引入的额外计算成本。
- 领先的性能表现。在物体移除(OR)和背景修复(BR)任务上进行了广泛的实验,包括定量和定性评估,验证了 FloED 在性能与效率上均优于其他最先进的文本引导扩散方法。
总结速览
解决的问题
- 时空一致性不足:现有基于扩散模型的视频修复方法在生成内容时难以保持帧间时序连贯性,导致纹理、光照等出现不和谐(如CoCoCo)。
- 计算效率低:扩散模型的多步去噪过程本身计算成本高,而引入光学流(估计、补全、融合)进一步增加了额外开销。
- 任务适应性差:现有方法在背景修复(BR)和物体移除(OR)任务中表现不佳,难以同时满足文本语义对齐和时空一致性需求。
提出的方案
- 双分支架构:
- 主修复分支:基于扩散模型完成视频修复。
- 时间无关的光学流分支:先修复损坏的光学流,再通过多尺度流适配器(flow adapters)将运动信息注入主分支的U-Net解码器。
- 高效加速技术:
- 训练自由的隐空间插值:利用光流引导的变形操作(warping)加速早期去噪阶段的多步采样。
- 流注意力缓存机制:在剩余去噪阶段缓存注意力计算结果,减少流适配器和流分支的重复计算。
- 锚帧策略:结合高质量图像修复模型提升关键帧质量,以改善整体视频修复效果。
应用的技术
- 扩散模型:基于AnimateDiff微调运动模块,适配视频修复任务。
- 光学流引导:
- 通过流分支补全损坏的光学流,提供运动一致性约束。
- 多尺度流适配器将光流特征融合到U-Net中。
- 加速技术:
- 光流变形(warping)实现隐空间特征插值。
- 注意力缓存减少冗余计算。
- 基准构建:针对BR和OR任务建立首个全面的扩散模型视频修复评测基准。
达到的效果
- 性能提升:
- 在BR和OR任务中,时空一致性和文本对齐性优于CoCoCo等SOTA方法(如图1所示)。
- 修复区域与上下文视频的纹理、光照更协调。
- 效率优化:
- 隐空间插值和注意力缓存显著降低计算成本,加速多步去噪过程。
- 通用性:
- 框架适用于不同场景(如动态背景修复、物体移除),且无需额外训练即可适配现有扩散模型。
方法
网络概述
下图2展示了本文提出的模型 FloED 的总体架构。FloED 采用预训练的Stable Diffusion Inpainting主干网络作为主分支,并集成了基于AnimateDiff v3初始化的运动模块。FloED 的训练过程分为两个阶段:
- 第一阶段:微调运动模块,使其时间建模能力适配视频修复任务。
- 第二阶段:
- 引入专用的流分支补全从掩码帧估计的损坏光流。
- 通过多尺度流适配器将分层运动信息注入主修复分支。
- 采用锚帧策略利用图像修复扩散模型的优势提升视频修复质量。
- 提出一种无需训练的去噪加速技术,利用光流进行隐空间特征插值,并结合流注意力缓存机制显著降低光流引入的计算开销。
视频修复中的光流引导
流补全分支:
- 该分支结构与主修复主干对齐,通过选择性聚合主分支各块的初始ResNet 模块确保通道兼容性。
- 移除 ResNet 的时间步输入,构建时间无关的流补全分支,使流特征不受扩散过程影响。
- 如图2所示,补全后的光流通过多尺度流适配器注入主 UNet 分支的上采样块,提供全局运动指导。
流适配器:
- 受IP-Adapter启发,流适配器由独立的交叉注意力层构成,将重建的光流特征输入交叉注意力以实现运动引导。
- 关键设计:流适配器置于文本交叉注意力层和运动模块之间,通过光流先验动态调整文本驱动的隐空间特征,解决生成内容与时空上下文的错位问题。
锚帧策略
FloED高效推理
基于扩散模型的多步采样特性,本文提出无需训练的隐空间特征插值技术,利用光流加速去噪过程,并辅以流注意力缓存机制优化推理效率。
流注意力缓存
- 流分支独立于时间步,推理阶段仅在首步执行光流补全,后续步骤复用补全光流。
- 针对多尺度流适配器:通过首步计算键值对(K/V)并存入内存库(图2右侧),后续步骤直接调用缓存,避免重复计算。
免训练去噪加速基于相邻隐空间特征具有相似运动模式且扩散模型在早期去噪阶段生成高层内容的特性,本研究通过光流引导的插值实现加速。该技术完全无需额外训练,具体流程如下图3所示:
- 初始化阶段:标准去噪流程补全光流并缓存流注意力。
- 交替处理:从第t-1步开始:
- 偶数帧(红色)执行去噪
- 奇数帧(绿色)通过双向光流变形(warping)生成
- 将噪声隐空间特征z按奇偶索引划分:
- 迭代优化:下一步仅对插值帧(绿色)去噪,红色帧通过变形生成。由于变形操作耗时极低,每步仅需处理半数帧隐空间特征,使去噪延迟减半。
约束条件
- 插值操作限制在初始S步(对应图像结构建立阶段)
- 仅对相邻帧执行变形以避免光流误差累积
- 采用遮挡处理技术缓解光流变形可能导致的遮挡问题
实验
实现细节
数据集与基准测试。本文采用Open-Sora-Plan数据集,通过场景切割获得421,396个高质量视频片段及其对应字幕。进一步构建了包含100个全新视频的评估基准,素材来自Pexels和Pixabay平台,其中50个用于物体移除(OR)任务,50个用于背景修复(BR)任务。针对BR任务,本研究使用聚焦背景的合成随机掩码;对于OR任务,通过Segment-Anything(SAM)模型逐帧生成物体掩码。所有视频均经人工筛选以确保运动幅度和摄像机移动速度的多样性,同时保证4K分辨率与100帧的总长度。字幕方面,采用VideoGPT生成初始视频提示词,并对OR任务人工修正背景描述文本。
训练与推理细节。本文采用512分辨率的16帧视频序列进行两阶段训练,通过随机方向与形状的掩码序列模拟BR和OR任务。第一阶段在8张NVIDIA A800 GPU上训练5个epoch(批次大小8),第二阶段在相同硬件上通过梯度累计实现批次大小128的30个epoch训练(λ值设为0.1)。推理阶段使用DDIM采样器,经实验将加速步长S设为5(总步数25步)。
对比实验
与开源文本引导扩散方法全面对比,包括VideoComposer、CoCoCo、DiffuEraser。
定性比较。如下图4所示,VideoComposer、CoCoCo和DiffuEraser在物体移除(OR)任务中表现出持续局限性,频繁出现视觉伪影和内容幻觉,破坏与场景上下文的语义一致性。相比之下,FloED能够用兼容内容填充掩码区域,展现出精确的文本条件生成能力,在背景修复(BR)和物体移除任务中均实现更优的时间连贯性与整体协调性。
定量比较。通过指标评估和用户研究进行量化对比:(1)指标评估:针对BR任务,采用PSNR、VFID和SSIM量化基础质量,并结合光流扭曲误差与时间一致性(TC)评估时序连贯性(TC通过CLIP-Image特征空间中连续帧的余弦相似度计算)。对于OR任务,由于缺乏真实数据支撑传统指标,采用同样基于CLIP分数的文本对齐度(TA)作为评估标准。所有指标均在512×512分辨率下测试。如下表1所示,FloED在所有指标上超越其他方法,展现最先进性能。
(2)用户研究:鉴于CLIP分数与人类感知存在偏差,组织15名标注者对BR和OR任务(共100个视频)的修复结果进行综合评估,从时序连贯性、文本对齐度和上下文兼容性三个维度对四种方法进行优选。如下图6所示,本研究的模型以BR任务62.27%和OR任务56.40%的优选率获得最高评价。
消融实验
光流相关消融研究。通过下图5所示的实验验证运动引导机制的有效性:
(1) 光流补全。以物体移除场景为例,补全后的光流结果显示受损区域实现了与周边环境保持时空一致性的上下文感知修复(B与C对比)。重建结果进一步验证了时序无关光流分支的补全能力。 (2) 光流适配器。这些重建光流通过多尺度适配器为修复主分支提供关键运动引导,有效提升场景兼容性并增强视频连贯性(D与E对比)。实验表明,多尺度光流适配器注入的运动指引能显著改善生成内容的环境一致性,从而提升时序连贯性与整体质量。下表2的架构消融实验显示,相较于关键帧策略,多尺度光流适配器对框架性能提升更具优势,证实了其在FloED中的核心作用。
效率实验。本节在NVIDIA H800 GPU的FP16精度环境下进行效率测试,FloED的去噪过程采用25步采样步数,分类器无关引导尺度(CFG)>1。
(1)隐空间插值步数。本文仅在去噪初期阶段应用隐空间插值。下图7的加速步数研究表明:当加速步数S超过去噪过程早期阶段时,性能会出现断崖式下跌。实验证明,在前5步采用光流引导的隐空间插值,可在仅轻微影响性能的前提下最大化降低去噪耗时。
(2)效率消融研究。下表3显示,相较于不含光流模块的基础版本,本研究对比了不同效率优化策略。由于训练时光流分支具有时序无关性,测试阶段仅需在首步去噪时运行光流分支完成破损光流修复并缓存记忆库,后续步骤可直接使用已修复光流进行隐空间插值,并调用缓存的K/V键值对实现流引导。最终确定最优方案:前5步(第2-6步)执行隐空间插值,剩余步骤采用流缓存补充,在432×240分辨率下实现13.4%加速。相比完全不使用光流补全与注意力机制的基准版本,这些优化几乎抵消了额外计算开销。
(3)效率对比。下表4数据表明,在相同去噪步数下,FloED在所有分辨率下均优于CoCoCo、DiffuEraser等基于扩散模型的方法,展现出最先进的运算效率。
讨论本文聚焦于文本引导的视频修复,主要与基于扩散模型的方法对比。本文的隐空间插值技术可直接扩展至CoCoCo等其他扩散模型实现加速处理。但需指出,预修复破损光流的策略可能限制其跨场景迁移能力。
结论
本文提出FloED,一种通过光流引导增强时序一致性与计算效率的视频修复框架。该双分支架构首先生成修复光流,继而通过多尺度适配器指导修复过程。无需训练的隐空间插值技术与流注意力缓存机制,显著降低了光流整合的典型计算开销。实验证明FloED在背景修复与物体移除任务中均达到最先进水平,展现出卓越的时序一致性与内容连贯性保持能力。
本文转自AI生成未来 ,作者:AI生成未来
