AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑

人工智能 新闻
首个高质量文本转视频开源模型Zeroscope,仅需8G显存就能用!

文生图模型Stable Diffusion开源后,将「AI艺术」彻底平民化,只需一张消费级显卡即可制作出非常精美的图片。

而文本转视频领域,目前质量较高的只有Runway前不久推出的商用Gen-2模型,开源界还没有一个能打的模型。

最近,Huggingface上有作者发布了一个文生视频模型Zeroscope_v2,基于17亿参数量的ModelScope-text-to-video-synthesis模型进行二次开发。

图片图片

模型链接:https://huggingface.co/cerspense/zeroscope_v2_576w

相比于原版本,Zeroscope生成的视频没有水印,并且流畅度和分辨率都得到了提升,适配16:9的宽高比。

开发者cerspense表示,他的目标就是和Gen-2进行开源较量,即提高模型质量的同时,还能免费供大众使用。

Zeroscope_v2包括两个版本,其中Zeroscope_v2 567w可以快速生成576x320像素分辨率、帧率为30帧/秒的视频,可用于视频概念的快速验证,只需要约7.9GB的显存即可运行。

Zeroscope_v2 XL可以生成1024x576分辨率的高清视频,大约需要15.3GB的显存。

Zeroscope还可以与音乐生成工具MusicGen一起使用,快速制作一个纯原创短视频。

Zeroscope模型的训练用到了9923个视频片段(clip)以及29769个标注帧,每个片段包括24帧。偏移噪声包括视频帧内对象的随机移位、帧定时(frame timings)的轻微变化或微小失真。

训练期间引入噪声可以增强模型对数据分布的理解,从而可以生成更多样化的逼真视频,并更有效地解释文本描述中的变化。

使用方法

使用stable diffusion webui

在Huggingface上下载zs2_XL目录下的权重文件,然后放到stable-diffusion-webui\models\ModelScope\t2v目录下即可。

在生成视频时,推荐的降噪强度值为0.66到0.85

使用Colab

图片

笔记链接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing

先点击Step 1下的运行按钮,等待安装,大约需要3分钟;

图片图片

当按钮旁边出现绿色复选标记时,继续执行下一步。

图片图片

点击想要安装模型附近的运行按钮,为了能够在Colab中快速获得3秒左右的剪辑视频,更推荐使用低分辨率的ZeroScope模型(576或448)。

图片图片

如果相运行更高分辨率模型(Potat 1或ZeroScope XL),运行也会更费时间,需要做出权衡。

再次等待复选标记出现,继续执行下一步。

选择在Step2中安装并希望使用的模型型号,对于更高分辨率的模型,推荐下面的配置参数,不需要太长的生成时间。

图片图片

然后为目标视频效果输入提示词,也可以输入否定提示(negative prompts),再按下运行按钮。 

等待一会后,生成的视频就会被放置在outputs目录下。

图片图片

「文生视频」开源竞赛

目前来说,文生视频领域仍处于起步阶段,即便是最好的工具也只能生成几秒钟的视频,并且通常存在较大的视觉缺陷。

但其实文生图模型最初也面临着类似的问题,但仅仅几个月后就实现了照片级真实感。

不过与文生图模型不同的是,视频领域在训练和生成期间所需要的资源都要更比图像更多。

虽然谷歌已经研发出了Phenaki和Imagen Video模型,可以生成高分辨率、更长、逻辑连贯的视频片段,但公众无法使用到这两个模型;Meta的Make-a-Video模型也同样没有发布。

目前可用的工具仍然只有Runway的商用模型Gen-2,此次Zeroscope的发布也标志着文生视频领域第一个高质量开源模型的出现。

责任编辑:张燕妮 来源: 新智元
相关推荐

2023-07-04 08:35:52

MetaGPT开源

2012-05-02 14:01:49

RIMBlack Berry

2024-02-19 07:58:01

OpenAI模型GPT

2023-08-28 13:06:47

2021-04-23 10:16:18

5G4G技术

2017-07-14 09:54:47

代码函数程序

2011-05-31 13:43:46

外链

2021-03-05 09:56:43

5G网络5G 套餐

2024-08-26 15:20:45

2017-07-13 12:46:23

互联网教育AI

2021-08-08 14:26:24

SQL数据库开发

2023-11-20 12:49:01

2011-02-16 11:18:15

思科无线网络视频

2024-02-20 13:44:00

AI数据

2011-12-18 20:45:31

惠普扫描仪

2021-07-06 10:21:55

Facebook AI开源

2015-08-19 08:54:23

Android开发框架

2012-09-13 10:44:18

Python代码
点赞
收藏

51CTO技术栈公众号