与Sora同架构,高效、连贯文生视频模型
Snap、特伦托大学、加州大学和布鲁诺凯斯勒基金会的研究人员,联合推出了高效、连贯一致性文生视频模型——Snap Video。
Snap Video与OpenAI最新推出的Sora一样采用Transformer架构,结合了时空压缩表示、全局联合时空建模以及自适应建模等功能,在生成的视频质量、视频动作一致性、复杂动作表现等方面非常棒。
除了文本生成视频之外,Snap Video还能根据文本提示对原始视频素材进行剪辑和合成,生成特殊需求的定制化视频,这对于短视频、影视行业帮助巨大。
为了评估Snap Video性能,研究人员在UCF101和MSR-VTT数据集上进行了综合测试。结果显示,在文本对齐、运动质量和动态效果可媲美Gen-2,明显优于Pika和Floor33。
论文地址:https://arxiv.org/abs/2402.14797
多数传统文生视频模型采用的是基于规则、样本或U-Net的方法,生成的内容很容易受约束,同时在生成高质量视频时面临,AI算力需求大,模型推理复杂,输出内容难控制等问题。
Snap Video则使用了Transformer架构,在推理/训练效率、AI算力方面需求更低,例如,其训练效率比U-Net快3.31倍,推理速度快4.5倍。
扩展EDM 框架
目前,用图像直接生成视频有很多优势,但由于视频内容冗余度很高会降低视频运动保真度、视觉质量和可扩展性。所以,研究人员扩展了EDM 框架,以降低空间和时间冗余像素,在保持原始SNR的同时,提升了模型质量和训练效率。
首先在EDM基础上增加输入缩放因子,可以根据视频的具体参数调整输入信号幅度,从而适应高分辨率视频生成,极大改善了模型处理视频高维输入的数据难题。
其次,Snap Video使用了新的神经网络结构,通过学习压缩后的视频表示,可以联合处理这些表示,大幅提升训练速度和扩展能力同时降低算力成本。
此外,还重写了框架各项定义。直接增加缩放因子可能会导致训练目标在低噪音时发生问题。Snap Video利用另一种表达目标的形式重新定义完整框架,确保目标和损失函数保持一致。
Transformer和其他模块
Transformer:Transformer 是Snap Video的核心模块之一,用于对时空压缩表示的视频数据进行编码。它包含多个自注意力层和前馈神经网络层,在全局联合的方式下对视频数据进行建模。Transformer编码器能够捕捉视频中的长期依赖关系和动态模式,从而提高生成视频的质量。
时空压缩表示:传统的视频生成方法通常使用二维的空间表示,而Snap Video采用了时空压缩表示的方法。它将时空维度视为一个压缩的一维潜在向量,这种高度压缩的表示形式显著减少了模型中的参数数量和计算复杂度。
全局联合时空建模:多数文生视频模型使用的是每个时间步骤都进行独立的计算,这导致了大量的重复计算。为了解决这个难题,Snap Video采用了全局联合时空建模策略。
通过在时空维度上共享参数,将时空信息整合到一个统一的Transformer架构中,避免了重复计算浪费算力,还能更好地捕捉视频中的长期依赖关系和动态模式。
自适应建模机制:Snap Video引入了一种自适应建模机制,可根据输入文本的语义信息对运动进行精确建模。通过自适应地调整模型的注意力和权重分配,模型可以更加准确地生成与文本描述相对应的运动。
本文转自 AIGC开放社区 ,作者:AIGC开放社区