像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!

发布于 2024-6-12 10:17
浏览
0收藏

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

Paper: ​​https://arxiv.org/abs/2406.04277​Code: ​​https://github.com/YangLing0818/VideoTetris​Project: ​​https://videotetris.github.io/​​​

扩散模型在文本到视频(T2V)生成方面取得了巨大成功,视频生成模型正以飞快的速度发展。


然而,现有的文生视频模型在应对复杂、细节丰富、多物体的指令时,仍存在一定的挑战。


为了生成更精确的复杂视频,北京大学与快手AI团队推出了 VideoTetris,定义了复杂组合指令生成任务,并提出了一个新的框架,实现复杂视频生成。这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。


具体而言,提出了时空合成扩散,通过在空间和时间上操纵和合成去噪网络的注意力图来精确地遵循复杂的文本特征。此外,还提出了一种增强的视频数据预处理方法,以增强训练数据的运动动力学和快速理解,并配备了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。


就像拼俄罗斯方块一样,轻松实现更精妙的组合细节!

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

总体贡献总结如下:

  • 介绍了一种时空合成扩散方法,用于处理具有多个对象的场景并遵循渐进的复杂提示。
  • 开发了一个增强的视频数据预处理pipeline,通过运动动力学和提示语义增强自回归长视频生成。
  • 提出了一种具有参考帧注意力的一致性正则化方法,该方法在合成视频生成中保持内容一致性。
  • VideoTetris可以生成最先进的高质量合成视频,也可以生成符合渐进合成提示的高质量长视频,同时保持最佳一致性。

组合生成

在文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。团队首次定义了组合视频生成任务,包括两个子任务:


1、跟随复杂组合指令的视频生成。

2、跟随递进的组合式多物体指令的长视频生成。在第一个场景中,我们输入“左边一个可


爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”这样的简单指令给文生视频模型。几乎所有开源模型都未能生成正确的视频,如:

Animatediff:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

opensora plan v1.1:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

videocrafter2:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

这些模型生成出融合了两个物体信息的奇怪视频。而使用 videotetris,生成出的视频是这样的:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

猫猫和狗狗自然灵动,同时保留了所有的位置信息和细节特征!甚至说,如果对比已经商用的 Gen-2 和 Pika呢?

Gen-2:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区


也生成了融合了猫和狗的一只奇怪生物

Pika:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

终于生成了两个小动物,结果搞错了左右关系


可见 ,VideoTetris 的组合视频生成能力即使面对商用模型也毫不逊色。


在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。


我们输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。


将这个指令输入给 FreeNoise 和 StreamingT2V 这两个还不错的长视频生成模型中,一次性生成长达 30s 的视频,他们生成的结果是这样的:


FreeNoise:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

松鼠几乎一动不动,一个松鼠从榛子变身而来,最后两个竟然都变了色

StreamingT2V:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

完全没有第二个松鼠出现,甚至在视频末期出现了严重的偏色


而VideoTetris生成的视频是这样的,到视频最后,生成了一个灵动的白松鼠和另一个棕松鼠,两只松鼠还在自然地交换食物

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

技术实现

这样的效果是如何做到的呢?该团队的 VideoTetris 框架使用了 时空组合扩散 方法。


他们将一个提示词首先按照时间解构,为不同的视频帧指定好不同的提示信息。


随后,在每一帧上进行空间维度的解构,将不同物体对应不同的视频区域。


最后,通过时空交叉注意力进行组合,通过这个过程实现高效的组合指令生成。


而为了生成更高质量的长视频,该团队还提出了一种增强的训练数据预处理方法。使得长视频生成更加动态稳定。此外,还引入了一个参考帧注意力机制,使用原生 VAE 对之前的帧信息编码,区别于 StreamingT2V, Vlogger, IPAdapter 等使用 CLIP 编码的方式,这样使得参考信息的表示空间和噪声完全一致,轻松获取更好的内容一致性。


这样优化的结果是,长视频从此不再有大面积偏色的现象,能够更好地适应复杂指令,并且生成的视频更具有动感,更符合自然。

时空组合扩散模型

动机 为了实现自然的组合生成,一个直接的方法是使用布局作为条件来指导生成过程。然而,这种方法提出了几个挑战: (i)需要大规模的训练。鉴于布局到图像模型改进的巨大潜力,训练布局到视频模型或训练布局到图像模型的时间卷积和注意力层将需要大量的计算资源,并可能难以跟上文本到视频模型的最新进展。(ii)基于布局的生成模型对目标边界框施加了很大的限制。由于视频持续时间较长,需要不断调整这些box的位置和大小,以保持连贯的视频内容,因此需要一个复杂的规划过程,这增加了整个方法的复杂性。因此,我们提出了一种直接调整不同目标交叉注意力的无训练方法,而不是训练布局到视频模型,如下图3所示。这种方法旨在克服基于布局的方法的局限性,并利用更灵活和高效的生成技术的潜力。

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区


基于 LM 的自动时空分解器(可选) 或者,时空分解过程可以直接利用大语言模型(LLM)来自动化任务,因为 LLM 在语言理解,推理,摘要和区域生成能力方面具有强大的性能。利用 LLM 的上下文学习(ICL)能力,引导模型使用思维链(CoT)推理。具体来说,首先引导 LLM 对故事进行时间分解,生成框架式提示,并使用 LLM 接收每一个提示,以获得更好的语义丰富性。然后,使用另一个 LLM 将每个提示符空间分解为对应于不同对象的多个提示符,并为每个子提示符分配一个区域mask。具体的提示模板,包括任务规则(指令) ,上下文示例(演示)见附录。


像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

利用 α 参数调节全局信息和个体特征之间的平衡,使视频内容更符合人类的审美感知。最后,自然而然地将所有交叉注意值连接起来,这些交叉注意值是沿着时间维度计算的:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

通过这种方式,无论是对于预先训练的文本到视频模型,如 Modelscope,Animatediff,VideoCrafter2和 Latte,还是对于更长的视频生成如 StreamingT2V 的自回归模型,这种方法可以直接应用于无训练的方式,以获得合成的,一致的和美观的结果。

增强的视频数据预处理

运动动增强力学 对于自回归视频生成,我们经验性地发现 StreamingT2V在生成一致的内容方面是最有效的。然而,在视频生成的后期阶段,有一个显著的趋势,即出现质量差的病例和颜色退化。我们把这个问题归因于原始训练数据的次优质量。为了提高长视频生成的运动一致性和稳定性,必须对视频数据进行过滤,以保持高质量的内容和一致的运动动力学。受到 Stable Video Diffusion的启发,我们经验性地观察到视频的光流量与其运动幅度之间存在显著的相关性。过低的光流通常对应于静态视频帧,而过高的光流通常表明帧有剧烈的变化。为了确保生成平滑和合适的视频数据,通过选择 RAFT计算的平均光流分数在指定范围(s1至 s2)内的视频来过滤 Panda-70M。


强化提示语义 虽然Panda-70M的视频显示出最好的视觉质量,配对提示往往是相对简短的,这与我们的目标,生成视频坚持复杂的,详细的,组合提示。直接使用这些数据进行训练可能会导致视频生成模型不能充分理解复杂的合成提示。受到最近文本到图像的研究的启发,已经证明高质量的提示可以显著提高视觉内容的输出质量。因此,在过滤了最初的一组视频之后,对选定的样本执行重述过程,以确保它们更好地与我们的目标保持一致。使用三个多模态 LLM 来生成每个视频的时空上错综复杂的详细描述,然后使用一个 LLM 来合并这些描述,提取公共元素,并添加进一步的信息。

具有参考帧注意的一致性正则化

我们的方法涉及到在长视频中添加和删除不同的对象,在整个视频中保持每个对象的一致性对于最终输出是至关重要的。最一致的 ID 控制方法,如 IP-Adapter,StreamingT2V,InstantID和 Vlogger,通常使用图像编码器(通常是 CLIP)编码参考图像,然后将结果整合到交叉注意力块中。然而,由于 CLIP 是在图像-文本对上预训练的,所以它的图像embedding被设计成与文本对齐。


一致性控制则侧重于保证同一物体在不同帧中的特征信息相似,且不涉及文本。我们假设使用 CLIP 是一种间接的方法,并提出引用框架注意来保持目标特征的帧间一致性。形式上,首先直接对参考图像进行编码,这些图像通常是物体出现的初始帧,使用与预先训练的 T2V 模型相同的自编码器。这保证了潜在去噪过程中的计算目标与隐含表示空间中的参考目标在空间上是一致的。然后我们训练一个2D卷积层和映射层,它们在结构上与原始pipeline中的结构相同。这一过程可以表现为:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

评测和效果

而对于这种组合生成的结果评测工作,该团队引入了新的评测指标 VBLIP-VQA 和 VUnidet,将组合生成评价方法首次扩展到视频维度。实验测试表明,在组合视频生成能力上,该模型的表现超过了所有开源模型,甚至是商用模型如 Gen-2 和 Pika。

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

与SOTA文本到视频模型相比,具有合成提示的视频生成的定性结果:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

更多VideoTetris的定性结果:

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!-AI.x社区

更多的样例欢迎访问项目主页:https://videotetris.github.io/


本文转自 AI生成未来,作者:Ye Tian等


原文链接:​​https://mp.weixin.qq.com/s/olQFlySHeBIS5QCzyyN99Q​

标签
收藏
回复
举报
回复
相关推荐