鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！

发布于 2024-8-26 10:04

浏览

0收藏

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

论文链接：https://arxiv.org/pdf/2407.21475

github链接：https://densechen.github.io/zss/

亮点直击
本文提出了一种新颖的zero-shot视频采样算法，该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。
本文提出了一个依赖噪声模型和时间动量注意力机制，首次能够灵活地控制生成视频中的时间变化。
通过广泛的应用展示了本文方法的有效性，包括条件和专门的视频生成，以及由文本指令引导的视频编辑。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

将时间维度引入预训练的图像扩散模型中用于视频生成是一种常见的方法。然而，这种方法计算量大，并且需要大规模的视频数据集。更为关键的是，图像和视频数据集之间的异质性常常导致图像专业知识的灾难性遗忘。最近，直接从图像扩散模型中提取视频片段的尝试在一定程度上缓解了这些问题。然而，这些方法只能生成带有简单运动的短视频片段，无法捕捉细粒度的运动或非网格变形。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

依赖噪声模型

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

在训练视频扩散模型时使用混合和渐进噪声模型已证明是有效的，如[11]所示。这种方法使得在训练过程中能够有效地学习帧之间的动画过渡。

依赖噪声模型

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

如下面算法1所示，本文提出了一种两阶段噪声搜索算法，这与传统的解析解方法有所不同。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

从而最小化公式1。

时间动量注意力

为了利用跨帧注意力的潜力，并使用预训练的图像扩散模型而无需重新训练，FateZero将每个自注意力层替换为跨帧注意力。在这种设置中，每一帧的注意力主要集中在初始帧。类似的结构也在 [19] 中采用。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

跨帧注意力的应用有助于将外观、结构以及物体和背景的身份从第一帧传递到后续帧。然而，这种方法缺乏相邻帧之间的连接，这可能导致生成的视频序列中出现显著的变化，如下图3所示。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

时间动量注意力

本文的观察表明，自注意力由于缺乏帧间上下文，会导致采样特征的多样性更高。另一方面，跨帧注意力仅依赖于初始帧的信息。这虽然保证了采样结果的一致性，但也导致了多样性的减少。

为了在自注意力和跨帧注意力的不同效果之间取得平衡，本文引入了时间动量注意力（Temporal Momentum Attention, TMA）。TMA的数学表示如下：

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

其中，

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

Zero-Shot 视频采样算法

通过结合依赖噪声模型和时间动量注意力，本文成功地利用现有的 DDIM 算法从图像扩散模型中采样出高质量的视频。这个过程在上面的算法 1 中进行了概述。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

实验

文本与视频任务的综合比较

在本研究中，本文从定量和定性两个方面对本文的方法和另一个zero-shot视频合成方法 Text2Video-Zero 进行了广泛的比较。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

从定性角度来看， 本文在上图3中提供了一些生成视频片段的可视化。本文方法生成的视频片段明显表现出更优越的连续性，显著减少了突兀的帧。与[19]中的简单上下物体运动相比，本文的依赖噪声模型采样的噪声可以扩散出更具体、复杂的运动，并在不同的扩散模型中很好地泛化，如下图2所示。结合时间动量注意力，本文的方法可以为更具挑战性的对象生成更复杂的运动，例如流体的非刚性变形、复杂的烟雾扩散效果，甚至是微妙的面部微表情，如下图1所示。

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

扩展

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

结论

超越Text2Video-Zero｜无需额外训练，条件生成、专门生成和指令引导的视频编辑全搞定！-AI.x社区

本文转自AI生成未来，作者：Dengsheng Chen等

原文链接:https://mp.weixin.qq.com/s/gVJD7uMLxmGrqmepp2hsQg?poc_token=HCDgy2ajRdlE1q4u81WYfSWxRlbctni_ZZk5f1B4

标签

赞

收藏

回复

举报

回复

相关推荐

MolGen: 化学反馈引导的预训练分子生成

mb5f8eba9bdb0af • 1330浏览 • 0回复
谷歌发布超强AI视频编辑工具！施展魔法的VLOGGER，音频加图片就搞定唇形和手势，还把表情编辑玩出花了！

51CTO技术栈 • 1751浏览 • 0回复
无需训练，这个新方法实现了生成图像尺寸、分辨率自由

轻薄滴假象 • 1232浏览 • 0回复
扩散模型中进行条件插值？AID:无需训练，保证一致、平滑和保真度(新加坡国立&南洋理工)

angel • 2850浏览 • 0回复
10倍速度突破质量瓶颈，效果超越Gen-2和Pika！T2V-Turbo：新一代视频生成模型

angel • 2046浏览 • 0回复
【LLM】ShareGPT4Video：借助更优质的标题提升视频理解和生成能力

海因斯DK • 2207浏览 • 0回复
视觉文本视频生成最强方案！Text-Animator效果确实好！

angel • 1448浏览 • 0回复
长视频生成速度提升100倍！新加坡国立提出Video-Infinity：分布式长视频生成

angel • 1526浏览 • 0回复
阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

angel • 1742浏览 • 0回复
多模态大语言模型的演变全回顾！（视觉定位、图像生成、编辑、理解）

angel • 2073浏览 • 0回复
PUMA:多粒度策略笑傲生成、编辑、修复、着色、条件生成和理解!

angel • 1740浏览 • 0回复
腾讯的混源视频模型HunyuanVideo：大视频生成模型训练的系统框架

Halo咯咯 • 983浏览 • 0回复
无需训练！多提示视频生成最新SOTA！港中文&腾讯等发布DiTCtrl：基于MM-DiT架构

angel • 1445浏览 • 0回复
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一

angel • 1652浏览 • 0回复
即插即用，无痛增强模型生成美感！字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

angel • 562浏览 • 0回复
Google 发布了用于视频生成的最先进的“Veo 2”和用于图像创建的“Improved Imagen 3”

Halo咯咯 • 731浏览 • 0回复
运动应用（生成&克隆&迁移&编辑）全搞定！阿里通义提出动画框架Perception-as-Control

angel • 737浏览 • 0回复
文本生成无限长视频，无需任何训练

Aceryt • 480浏览 • 0回复
LLM合集：视频生成新王炸！Step-Video-T2V，全方位碾压开源与商业模型

AIPaperDaily • 439浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？ 0回复

上一篇：勇夺三项SOTA！北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo！

下一篇：长视频生成又有重大突破！DreamFactory：一致、连贯且引人入胜的长视频生成框架

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载