北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

Crystalcxt

发布于 2024-6-17 10:40

浏览

0收藏

如何生成高难度、指令超复杂的视频呢？

北大与快手AI有解了，他们提出新框架VideoTetris，就像拼俄罗斯方块一样，轻松组合各种细节~

在复杂视频生成任务中，超过了Pika，Gen-2等一众商用模型。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

这个框架不仅能够直接增强现有模型的组合生成，还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

在文生图领域，RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域，组合生成自然地扩展到时间和空间维度，这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务，包括两个子任务：

1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现，几乎所有开源模型，包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗，右边一只打盹的猫在阳光下小憩”，结果生成的都是融合了两个物体信息的奇怪视频。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

而使用VideoTetris，生成出的视频是这样，成功保留了所有的位置信息和细节特征。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

在长视频生成中，目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化，或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令：“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定，出现顺序也与Prompt一致，最后两只松鼠还在自然地交换食物。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

使用了时空组合扩散方法

这样的效果是如何做到的呢？该团队的 VideoTetris 框架使用了时空组合扩散方法

他们将一个提示词首先按照时间解构，为不同的视频帧指定好不同的提示信息。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

随后，在每一帧上进行空间维度的解构，将不同物体对应不同的视频区域。

最后，通过时空交叉注意力进行组合，通过这个过程实现高效的组合指令生成。

而为了生成更高质量的长视频，该团队还提出了一种增强的训练数据预处理方法。使得长视频生成更加动态稳定。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

此外，还引入了一个参考帧注意力机制，使用原生VAE对之前的帧信息编码，区别于StreamingT2V，Vlogger，IPAdapter等使用CLIP 编码的方式，这样使得参考信息的表示空间和噪声完全一致，轻松获取更好的内容一致性。

这样优化的结果是，长视频从此不再有大面积偏色的现象，能够更好地适应复杂指令，并且生成的视频更具有动感，更符合自然。

对于这种组合生成的结果评测工作，该团队引入了新的评测指标VBLIP-VQA和VUnidet，将组合生成评价方法首次扩展到视频维度。

实验测试表明，在组合视频生成能力上，该模型的表现超过了所有开源模型，甚至是商用模型如Gen-2和Pika。

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源-AI.x社区

据介绍，该代码将完全开源。

论文地址：
https://arxiv.org/abs/2406.04277

项目主页：
https://videotetris.github.io/

GitHub地址：https://github.com/YangLing0818/VideoTetris

本文转自量子位，作者：量子位

原文链接:https://mp.weixin.qq.com/s/nsSTckp5xsk1VhyV--t_Sw

标签

视频

生成

相关推荐

超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 1233浏览 • 0回复
AI攻克费马大定理？数学家放弃5年职业生涯，将100页证明变代码

duhorse • 1065浏览 • 0回复
国产开源Sora上新：全面支持国产AI算力，可用ReVideo视频编辑，北大-兔展团队出品

Crystalcxt • 1511浏览 • 0回复
支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

轻薄滴假象 • 1044浏览 • 0回复
像俄罗斯方块一样生成视频！北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频！

angel • 1727浏览 • 0回复
快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕

51CTO技术栈 • 4017浏览 • 0回复
长视频生成速度提升100倍！新加坡国立提出Video-Infinity：分布式长视频生成

angel • 1442浏览 • 0回复
视频生成要有自己的系统！尤洋团队历时半年开源VideoSys

轻薄滴假象 • 840浏览 • 0回复
长视频生成又有重大突破！DreamFactory：一致、连贯且引人入胜的长视频生成框架

angel • 4642浏览 • 0回复
基于语言代理树搜索（LATS）和GPT-4o攻克复杂的LLM决策问题

51CTO内容精选 • 1057浏览 • 0回复
精准可控新视角视频生成+场景级3D生成！北大&港中文&腾讯等开源ViewCrafter

angel • 1169浏览 • 0回复
快手、北大开源，超高清10秒、24帧视频模型

Aceryt • 674浏览 • 0回复
Meta Movie Gen：新的 SOTA 视频生成模型-技术报告解读

amei2000go • 1745浏览 • 0回复
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

angel • 932浏览 • 0回复
从频率到细节：ConsisID实现无缝身份一致的文本到视频生成

angel • 935浏览 • 0回复
谷歌量子芯片Willow炸翻了科技圈：攻克30年量子难题，网友：谷歌又行了！

51CTO技术栈 • 606浏览 • 0回复
腾讯的混源视频模型HunyuanVideo：大视频生成模型训练的系统框架

Halo咯咯 • 839浏览 • 0回复
视频编辑最新SOTA！港中文&Adobe等发布统一视频生成传播框架——GenProp

angel • 533浏览 • 0回复
LLM合集：视频生成新王炸！Step-Video-T2V，全方位碾压开源与商业模型

AIPaperDaily • 336浏览 • 0回复

Crystalcxt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

首次定义组合视频生成

使用了时空组合扩散方法

目录