拒绝复制粘贴!Snap&卡内基梅隆提出多主体开集个性化视频生成新范式Video Alchemist!
文章链接:https://arxiv.org/pdf/2501.06187
项目链接:https://snap-research.github.io/open-set-video-personalization/
亮点直击
- 提出了Video Alchemist,这是一种支持前景对象和背景的多主体、开放集合个性化的新型视频生成模型。
- 精心构建了大规模训练数据集,并引入训练技术以降低模型过拟合。
- 引入了 MSRVTT-Personalization,这是一种新的视频个性化基准,提供多种条件模式并能准确测量主体保真度。
总结速览
解决的问题
- 现有视频个性化生成方法领域有限,无法支持多主体或开放集合的个性化。
- 多数方法需要耗时的测试时优化,仅支持单一主体或前景对象。
- 缺乏包含参考图像和视频的开放集合数据集,模型难以泛化到新背景或上下文。
- 缺乏适用于多主体视频个性化的评估基准。
提出的方案
- 提出Video Alchemist,一种支持多主体和开放集合视频个性化生成的模型,能处理前景对象和背景的个性化生成,无需测试时优化。
- 引入Diffusion Transformer 模块,通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。
- 设计自动数据构建管道,通过目标视频中提取对象片段并结合多种数据增强技术,增强模型对主体身份的关注,避免“复制粘贴效应”。
- 构建MSRVTT-Personalization,一个针对多主体视频个性化的评估基准,支持多种条件模式下的个性化场景测试。
应用的技术
- Diffusion Transformer 模块:
- 结合文本提示和参考图像嵌入,通过两层交叉注意力实现主体级融合。
- 多主体条件下,融合每个主体的文本描述与图像嵌入,实现多主体个性化生成。
- 数据增强与数据管道:
- 自动提取视频对象片段,结合个性化数据增强(改变背景、光照、姿态等)生成多样化训练数据。
- 评估基准:
- 提出基于 MSRVTT 数据集的个性化评估协议,对多主体场景下的主体保真度逐一评估。
达到的效果
- 在定量和定性评估中显著优于现有个性化方法,实现更高的主体保真度和背景多样性。
- 通过数据增强有效缓解“复制粘贴效应”,生成背景、光照和姿态丰富的视频内容。
- MSRVTT-Personalization 提供全面评估能力,支持多主体、开放集合的个性化场景验证。
- 模型无需测试时优化,生成效率大幅提升,同时扩展了视频个性化应用的领域和复杂性。
方法
本文的目标是学习一个生成性视频模型,该模型以文本提示和表示提示中每个实体词的一组图像为条件。
数据集收集
如下图2所示,通过三个步骤整理数据集:
提取实体词
为了实现多主体个性化,本文使用大语言模型从单个字幕中提取多个实体词。定义了三种类型的实体词:主体(例如,人类、动物)、物体(例如,汽车、夹克)和背景(例如,房间、海滩)。主体和物体在视频中应清晰可见。根据若干标准对训练数据集进行过滤和增强质量。例如,排除了字幕中包含复数形式主体实体词(例如,一群人、几只狗)的视频,以避免个性化中的歧义。此外,还移除了没有主体实体词的视频,因为这些视频的动态通常由无意义的摄像机运动主导。
准备主体图像
从视频的开头、中间和结尾分别选取三帧(位于5%、50%和95%百分位)。此方法的目的是捕捉目标主体或物体在不同姿势和光照条件下的样子。随后,对每帧应用 GroundingDINO 检测边界框。这些边界框随后被SAM用于分割与每个实体对应的mask区域。此外,对于描绘人类的参考图像,使用人脸检测 提取人脸区域。
准备背景图像
最后,通过移除主体和物体创建一个干净的背景图像。由于 SAM 有时会生成不精确的边界,在应用修复算法 之前扩展了前景mask。使用背景实体词作为正向提示,并使用“任何人类或任何物体、复杂图案和纹理”作为反向提示。为了确保背景一致性,我们仅使用每个视频序列的中间帧。
视频个性化模型
通过文本提示、参考图像及其对应的实体词作为条件,通过去噪视频来学习Video Alchemist。
视频生成骨干
如下图3所示,本文的模型是一个隐空间扩散Transformer(DiT),首先使用自动编码器将视频压缩为隐空间表示,并使用分词器将其编码为1D视频token序列。添加高斯噪声以获得一个噪声样本,并遵循修正流公式 [35, 38] 学习去噪网络。
本文的网络是深度 DiT 块的级联。与普通 DiT 设计不同,本文的模块通过结合文本和图像条件的信息,支持内置个性化功能。DiT 块包括三层:一层多头自注意力层,后接两层分别用于文本和个性化条件的多头交叉注意力层。采用 RoPE 的位置嵌入和自注意力,因为它在视频token数量变化时依然高效。此外,还采用了快速注意力 和融合层规范来加速模型的训练和推理。
图像和词语概念的绑定
对于多主体个性化,模型可以基于多个主体进行条件生成,每个主体由一个或多个参考图像表示。因此,为对应的文本token和图像token提供绑定信息至关重要。如图6第二行所示,缺乏这种绑定信息时,模型往往会将图像条件应用于错误的主体,例如将参考人脸放置到狗身上。
个性化条件
个性化嵌入f用于与视频token进行交叉注意力计算。尽管IP-Adapter使用单一的解耦交叉注意力层同时处理文本和图像条件,但通过实验证明,在本文的场景中使用单独的交叉注意力层效果更好。这可能是因为多图像条件引入了更长的图像token序列。因此,在共享层中混合文本和图像token会导致图像token占主导地位,从而削弱与文本提示的对齐。
将模型训练分为两个阶段。在第一阶段,仅使用一个交叉注意力层进行文本条件的训练。接着,在第二阶段引入额外的交叉注意力层以处理个性化条件,并通过热身方式对整个模型进行微调。
降低模型过拟合
这种过拟合通常会导致“复制粘贴”效应,即模型直接在视频中复制参考图像,而未引入姿态和光照变化。这种现象在基于重构的方法(例如IP-Adapter )中尤为明显,如下图5所示。
为了缓解这些问题,对参考图像应用数据增强。使用下采样和高斯模糊来防止过拟合到图像分辨率,使用颜色抖动和亮度调整来缓解光照条件的过拟合,并使用随机水平翻转、图像切变和旋转来削弱对主体姿态的过拟合。关键思想是引导模型关注主体的身份,而不是学习参考图像中泄露的非意图信息。
实验
本届介绍了MSRVTT-Personalization,这是一个全面的个性化基准,提供了与最新方法的定量和定性比较,讨论了模型训练和架构设计的消融研究。
MSRVTT-Personalization基准
现有方法[55, 75, 82, 85]通过参考图像与生成图像或视频之间的图像相似度来评估主体保持性。然而,这些指标在多个主体的情况下效果不佳,因为图像级别的相似度无法聚焦于目标主体。为了解决这个问题,本文提出了MSRVTT-Personalization,提供了一个更全面且准确的个性化任务评估。它支持各种条件场景,包括对面部裁剪、单个或多个主体,以及前景物体和背景的条件。
基于MSRVTT构建了测试基准,并将数据集处理分为三步。首先,使用TransNetV2,一种镜头边界检测算法,将长视频分割成多个片段,并应用内部字幕算法为每个片段创建详细字幕。接着,为每个视频-字幕对生成注释。最后,为了确保数据质量,手动选择符合以下标准的样本:
- 视频不是没有实际主体运动的动画静态图像。
- 视频不包含大量文本叠加。
- 检索的主体和物体覆盖了视频中的所有主要主体和物体。
- 由修复算法生成的背景图像成功移除了前景物体,并且没有生成新的物体。
为了增加数据的多样性,从每个长视频中选择一个片段,收集了2130个片段。下图4显示了一个标注的测试样本。
评估指标
理想的个性化视频输出应该与文本对齐,保持主体的保真度,并展现自然的视频动态。因此,使用以下五个指标:
- 文本相似度:文本和生成帧的CLIP ViT-L/14特征之间的余弦相似度。它衡量生成的视频与文本提示的对齐程度。
- 视频相似度:真值和生成帧的CLIP ViT-L/14特征之间的平均余弦相似度。
- 主体相似度:参考图像和生成帧的分割主体之间的DINO ViT-B/16特征的平均余弦相似度。使用Grounding-DINO Swin-T和SAM ViT-B/16进行主体分割。
- 面部相似度:参考面部裁剪和生成面部裁剪之间的ArcFace R100特征的平均余弦相似度。使用YOLOv9-C 检测生成的面部。
- 动态程度:连续生成帧之间的光流大小。使用RAFT计算光流。
请注意,缺少主体或面部的视频帧会被分配一个相似度得分为0。该基准将公开发布,网址为snap-research.github.io/MSRVTT-Personalization。
与现有方法的比较
本节将Video Alchemist与现有的个性化模型在MSRVTT-Personalization基准上进行定量和定性比较。
实验设置
广泛比较了多种个性化模型,包括文本到图像模型、文本到视频模型,以及基于优化的方法和基于编码器的方法。由于现有方法使用不同类型的条件图像,我们引入了两种评估模式:主体模式和面部模式。主体模式使用完整的主体图像作为输入,而面部模式仅使用面部裁剪图像。对于主体模式,收集了1,736个包含单一主体的测试视频;对于面部模式,收集了1,285个包含单一面部裁剪的测试视频。
对于文本到图像模型,将输出图像视为单帧视频。对于基于优化的模型,使用官方代码库中的默认超参数进行微调。对于IP-Adapter,使用IP-Adapter-FaceID+的检查点。如果模型支持多个参考图像,会分别使用单一和多个输入图像进行评估。我们还在主体模式下,通过额外输入背景参考图像来评估本文的模型。
MSRVTT-Personalization上的定量评估
下表1显示了定量评估结果。与现有的开放集个性化方法相比,Video Alchemist在主体保真度上取得了更高的成绩,主体相似度比VideoBooth高出23.2%。与此同时,本文的模型在文本对齐和视频动态方面取得了最佳成绩。本文的开放集模型在面部保真度上超过了面部特定模型,比IP-Adapter高出11.3%的面部相似度。
此外,当提供更多参考图像时,Video Alchemist可以生成更高保真度的目标主体或面部,展示了多图像条件的优势。此外,通过利用额外的背景参考图像,Video Alchemist能够合成更接近真值视频的输出,突出了背景条件的有效性。然而,更多的参考图像有时会导致较差的文本对齐,这可能是由于更多参考图像带来的灵活性有限。
MSRVTT-Personalization上的定性评估
在前面图5中,展示了不同方法生成的视频与真值视频的对比。与现有模型相比,本文的方法生成了更具真实感的视频,并且目标主体的保真度更高。
人类评估
为了补充自动化评估,进行了一项用户研究,评估视觉质量和主体保真度。分别从主体模式和面部模式中随机选择200个测试样本,并将条件图像和生成结果展示给5位参与者。对于每个样本,参与者需要选择出最能保留主体细节并具有最佳视觉质量的结果。
下表2总结了结果。本文的方法在视觉质量和主体保真度上显著优于现有的最先进方法。值得注意的是,人类评估的保真度评分与表1中的主体相似度和面部相似度评分呈正相关,展示了所提的MSRVTT-Personalization的有效性。
消融研究
本节展示了三种训练或架构选择的消融研究。定量和定性评估分别显示在表3和图6中。
不同的图像编码器使用两种图像编码器训练模型,分别是CLIP和DINOv2,并发现CLIP在文本相似度方面表现更好,而DINOv2在主体相似度方面表现更佳。我们假设,DINOv2采用自监督学习目标进行训练,能够捕捉独特的物体特征。相比之下,CLIP旨在连接视觉和文本模态,重点关注通常在提示中描述的细节,这可以改善文本与图像的对齐效果。
图像与词汇概念绑定的必要性
本文提出了一种机制,将图像的概念与相应的实体词汇绑定。如果没有这样的绑定,模型可能会错误地将图像条件应用于错误的主体。例如,模型将一个参考人脸放置在狗身上,如下图6第二行所示。这种错位也会导致主体缺失和主体相似度降低。
数据增强的效果
本文引入了数据增强来减少模型的过拟合。如果没有数据增强,模型会遭遇复制粘贴问题。虽然这有助于实现更高的主体相似度,但却会降低动态度,并减少文本相似度。尽管图6中的提示是“女人在微笑...”,第三行的合成主体并没有微笑。相反,它复制了参考图像中的相同面部表情。
结论
本文提出了Video Alchemist,这是一种支持多主体和开放集个性化功能的视频个性化模型,能够处理前景物体和背景,而无需在测试时进行优化。该模型基于一个扩散Transformer模块,通过交叉注意力层将条件图像与其主体级别的提示进行整合。通过我们的数据集策划和数据增强,我们减少了模型在参考图像上不希望出现的过拟合现象。此外,我们还提出了一个新的基准,用于评估个性化模型在各种条件下的表现。实验结果表明,本文的方法在定量和定性度量上均优于现有方法。
本文转自AI生成未来 ,作者:AI生成未来