鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

与Sora同架构，高效、连贯文生视频模型

发布于 2024-7-17 10:55

1875浏览

0收藏

Snap、特伦托大学、加州大学和布鲁诺凯斯勒基金会的研究人员，联合推出了高效、连贯一致性文生视频模型——Snap Video。

Snap Video与OpenAI最新推出的Sora一样采用Transformer架构，结合了时空压缩表示、全局联合时空建模以及自适应建模等功能，在生成的视频质量、视频动作一致性、复杂动作表现等方面非常棒。

除了文本生成视频之外，Snap Video还能根据文本提示对原始视频素材进行剪辑和合成，生成特殊需求的定制化视频，这对于短视频、影视行业帮助巨大。

为了评估Snap Video性能，研究人员在UCF101和MSR-VTT数据集上进行了综合测试。结果显示，在文本对齐、运动质量和动态效果可媲美Gen-2，明显优于Pika和Floor33。

论文地址：https://arxiv.org/abs/2402.14797

与Sora同架构，高效、连贯文生视频模型-AI.x社区

与Sora同架构，高效、连贯文生视频模型-AI.x社区

多数传统文生视频模型采用的是基于规则、样本或U-Net的方法，生成的内容很容易受约束，同时在生成高质量视频时面临，AI算力需求大，模型推理复杂，输出内容难控制等问题。

Snap Video则使用了Transformer架构，在推理/训练效率、AI算力方面需求更低，例如，其训练效率比U-Net快3.31倍，推理速度快4.5倍。

扩展EDM 框架

目前，用图像直接生成视频有很多优势，但由于视频内容冗余度很高会降低视频运动保真度、视觉质量和可扩展性。所以，研究人员扩展了EDM 框架，以降低空间和时间冗余像素，在保持原始SNR的同时，提升了模型质量和训练效率。

与Sora同架构，高效、连贯文生视频模型-AI.x社区

首先在EDM基础上增加输入缩放因子，可以根据视频的具体参数调整输入信号幅度,从而适应高分辨率视频生成，极大改善了模型处理视频高维输入的数据难题。

其次,Snap Video使用了新的神经网络结构，通过学习压缩后的视频表示,可以联合处理这些表示,大幅提升训练速度和扩展能力同时降低算力成本。

此外,还重写了框架各项定义。直接增加缩放因子可能会导致训练目标在低噪音时发生问题。Snap Video利用另一种表达目标的形式重新定义完整框架,确保目标和损失函数保持一致。

Transformer和其他模块

Transformer：Transformer 是Snap Video的核心模块之一，用于对时空压缩表示的视频数据进行编码。它包含多个自注意力层和前馈神经网络层，在全局联合的方式下对视频数据进行建模。Transformer编码器能够捕捉视频中的长期依赖关系和动态模式，从而提高生成视频的质量。

与Sora同架构，高效、连贯文生视频模型-AI.x社区

时空压缩表示：传统的视频生成方法通常使用二维的空间表示，而Snap Video采用了时空压缩表示的方法。它将时空维度视为一个压缩的一维潜在向量，这种高度压缩的表示形式显著减少了模型中的参数数量和计算复杂度。

全局联合时空建模：多数文生视频模型使用的是每个时间步骤都进行独立的计算，这导致了大量的重复计算。为了解决这个难题，Snap Video采用了全局联合时空建模策略。

与Sora同架构，高效、连贯文生视频模型-AI.x社区

通过在时空维度上共享参数，将时空信息整合到一个统一的Transformer架构中，避免了重复计算浪费算力，还能更好地捕捉视频中的长期依赖关系和动态模式。

自适应建模机制：Snap Video引入了一种自适应建模机制，可根据输入文本的语义信息对运动进行精确建模。通过自适应地调整模型的注意力和权重分配，模型可以更加准确地生成与文本描述相对应的运动。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/XW5SJI7VtgSTIQInKMm6uQ

标签

赞

收藏

回复

举报

回复

相关推荐

今日arXiv最热NLP大模型论文：逆向解析Sora背后的秘密，谈AI视频的机遇与挑战

pangguiyu • 2611浏览 • 0回复
文生视频时代已到，百度、讯飞、字节谁能率先做出“国产Sora”？

liutao988 • 2186浏览 • 0回复
详解Latte：应用于文生视频的DiT模型

jordana • 3291浏览 • 0回复
VideoMamba：用于高效视频理解的状态空间模型

烂漫树林 • 3425浏览 • 0回复
音乐版Sora！文生超逼真歌曲，可自定义歌词、时间延长

Aceryt • 3198浏览 • 0回复
微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

Crystalcxt • 2989浏览 • 0回复
Open-Sora 1.1重磅更新+解读：完全开源的高效复现类Sora视频生成方案！YYDS!

angel • 4949浏览 • 0回复
谷歌发布Veo：文生超1分钟、1080P视频，媲美Sora

Aceryt • 3730浏览 • 0回复
媲美Sora，免费使用！带物理模拟的，文生视频模型

Aceryt • 3091浏览 • 0回复
长视频生成又有重大突破！DreamFactory：一致、连贯且引人入胜的长视频生成框架

angel • 7475浏览 • 0回复
无需定制视频数据，DeepMind让文生定制视频变得简单！

angel • 1824浏览 • 0回复
比肩Sora，免费试用！国外惊讶，中国文生视频模型超高质量！

Aceryt • 2748浏览 • 0回复
Open-Sora 1.1 解读：完全开源的高效复现类Sora视频生成方案！

angel • 2082浏览 • 0回复
文生视频模型Runway、Luma同时开放API

Aceryt • 2207浏览 • 0回复
超越Sora！全球首个带背景音乐，文生1080超高清视频模型

Aceryt • 2157浏览 • 0回复
微软发布Mora视频模型，吊打Sora？

echo_ning • 1561浏览 • 0回复
Sora来了！文字秒变视频，附技术细节

云原生AI百宝箱 • 1731浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 5522浏览 • 0回复
超越Sora！谷歌推出Veo 2，生成8秒超逼真视频

Aceryt • 368浏览 • 0回复

LV.7

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

193

帖子

1691

声望

1

粉丝

关注

最近发布

刚刚，o4-mini发布！OpenAI史上最强、最智能模型 20h前发布
超越Sora！谷歌推出Veo 2，生成8秒超逼真视频 1天前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

上一篇：性能超Llama 3，可商用！开源大模型Falcon 2

下一篇： OpenAI发布PVG：用小模型验证大模型输出，解决“黑盒”难题

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载