腾讯又整活！一句话让图片变动漫主角！-51CTO.COM

撰稿 | 清竹

出品 | 51CTO技术栈（微信号：blog51cto）

2023年底，AI圈似乎已经被“文生视频”模型攻占了！

11月底 AI 文生视频工具 Pika 1.0 横空出世、风头一时无两，日前斯坦福大学 AI 科学家李飞飞团队联合谷歌推出AI 视频生成模型 W.A.L.T（Window Attention ）继续炸圈，近日，腾讯团队带着新作品来炸场了！

1、吊打黑马AnimateDiff，实力碾压

AnimateZero 是腾讯AI团队发布的一款视频生成模型，它通过改进预训练的视频扩散模型（Video Diffusion Models），将视频生成当作一种零样本的图像动画问题，能够更精确地控制视频的外观和运动。

据介绍，该模型的效果秒杀 Animatediff，并且能够更好地兼容现有的SD生态。口说无凭，先来看看 AnimateZero 生成的视频效果如何？

AnimateZero 展示了在多个 T2I 模型上生成的个性化视频。

比如由动漫人物的图片生成的视频，人物动作流畅，还融入了眼睛变色、头发蓬蓬的小细节：

再看看自然景观的生成，沙滩上浪花的涌动、烟花的绚烂绽放、闪电袭来的氛围感，都有种身临其境的感觉。

AnimateZero 还演示了一种通过插入文本嵌入来控制视频的动态效果：由图像生成视频后，再增加如“快乐+微笑”、“愤怒而严肃”、“张开嘴”、“非常悲伤”等文本，视频人物就能呈现对应的情绪和动作。

除了在现有模型上生成个性化视频，AnimateZero 是如何“秒杀”AnimateDiff 的？

AnimateZero 方面表示， AnimateDiff （AD）的一种常见用途是协助 ControlNet (CN) 进行视频编辑，但它仍然存在域间隙问题。AnimateZero （AZ）在这方面具有明显的优势，即生成主观质量更高、与给定文本提示匹配度更高的视频。

AnimateZero 官方也给出了视频效果对比：根据原视频生成在熔岩中游泳的女孩，AnimateDiff 的视频画面比较模糊，熔岩的效果几乎看不出来，对比之下，AnimateZero 的视频无论是与文本的契合度还是画面的美感，明显优于AnimateDiff。

如果要将原视频中的黑色汽车变成红色呢？效果也显而易见：

再来看看要求将原视频变成在森林的草地上奔跑的小女孩，AnimateDiff生成的视频既没有呈现森林也没有看到草地，只是在背景墙和小女孩的头发上呈现一些绿色，这显然不符合要求；而AnimateZero的效果就好多了，和主题词完美契合。

2、AnimateZero 到底强在哪？

AnimateZero是一种基于视频扩散模型的零样本图像动画生成器。传统的视频扩散模型（VDM）存在以下几个问题：

黑匣子：生成过程不透明
低效且不可控：要获得满意的结果，需要大量的试错
域差距：受训练期间使用的视频数据集的域限制

AnimateZero 利用一种分步生成视频的方法，将外观和运动过程解耦，解决了传统文本到视频（T2V）扩散模型缺乏精确控制的问题。通过零样本修改，还能将T2V模型转换为I2V模型，使其成为零样本图像动画生成器。

解耦：视频生成过程解耦为外观（T2I）和运动过程（I2V）
高效可控：T2I 生成相比 T2V 更加可控、高效，在 I2V 生成视频之前可以获得满意的图像
缓解域差距问题：可以微调 T2I 模型的域以与实际域保持一致，这比调整整个视频模型更有效

传统视频扩散模型（a) 和 AnimateZero 视频生成模型 (b) 的对比

除了本身的创新之外，相比AnimateDiff，AnimateZero 有哪些优势呢？

更高的一致性：在文本描述与生成视频之间，以及T2I（文本到图像）域与生成视频之间，AnimateZero展示了更高的一致性。
多样化应用：相比于AnimateDiff，AnimateZero支持更广泛的个性化图像域，并且能够在不同风格（如真实风格、动漫风格）中表现更好。
更强的动画效果：在动画质量和风格一致性方面，AnimateZero优于AnimateDiff，尤其在处理复杂运动和不常见对象时表现出更好的性能。

再完美的模型也会有它的局限性，AnimateZero的性能受限于其基础模型AnimateDiff的运动先验。对于一些复杂运动（如体育运动）或不常见对象的动画，AnimateZero的表现可能不尽如人意。另外由于AnimateZero是基于AnimateDiff的改进，因此其性能和应用范围受到基础模型的限制。

3、AI视频生成模型大爆发

1年以前，ChatGPT 以迅雷不及掩耳之势席卷全球，为文本创作领域带来重大的变革；一年后，文生视频赛道已成爆发态势，国内外的玩家都纷纷“开卷”。

先看国外的科技巨头：

11 月 3 日，Runway 宣布其 AI 视频生成工具 Gen-2 更新，一周后，Runway 又发布运动画笔功能，强化视频局部编辑能力；

11 月 16 日，科技巨头 Meta 推出了文生视频模型 Emu Video，首先生成以文本为条件的图像，然后生成以文本和生成的图像为条件的视频。

Stability AI 当然也毫不示弱。11 月 29 日，Stability AI 推出了名为 Stable Video Diffusion 的视频生成模型，提供 SVD 和 SVD-XT 两个模型。

更有最近火爆出圈的 AI 创企 Pika Labs 推出网页版 Pika 1.0，直接甩出体验链接引爆市场。

国内方面，11月12日，中国科学院等机构的研究者11 月 21 日提出了一个无需训练的文本生成视频框架 GPT4Motion；11 月 18 日，字节跳动推出了文生视频模型 PixelDance，提出了基于文本指导 + 首尾帧图片指导的视频生成方法，使得视频生成的动态性更强；12月1日，阿里的研究团队提出新框架 Animate Anyone，支持从静态图像 AI 生成动态视频；12月5日，美图公司发布的 AI 视觉大模型 MiracleVision 的 4.0 版本，主打设计和视频能力。

4、纷纷加码，“开卷”背后有何玄机？

那么，AI视频生成的技术和产品加速爆发，背后说明了什么？

从技术层面来看，文生图和文生视频的人工智能模型有较高相似性，文生图的技术和经验可供文生视频加以运用和参考是一个重要原因。

从市场情绪来看，近日95后女生以4人团队打造Pika Labs，快速出圈刷屏，成立半年就获得5500万美元融资，估值2亿美元。紧接着，也在A股上演了“父凭女贵”的戏码，其父亲所在的上市公司在这款工具爆火后连续收获3个涨停。可见文生视频领域的吸金能力空前巨大。

此外，国内头部企业的技术积累已经具备条件。湖南大学信息科学与工程学院博士生导师、教授张大方分析称，文生视频的人工智能模型参数为10亿级别至100亿级别，国内头部企业已能熟练掌握上述技术。在加快改进模型、清洗学习数据、调整操作界面、优化内部参数的共同推动下，文生视频技术已逐步克服诸多不足，并快速进入商业化应用。

同时，从应用角度方面来看，AI生成视频的前景毋庸置疑，影视、游戏以及广告等领域都是其落地的重要场景。艾媒咨询CEO兼首席分析师张毅表示：“个性化的视频制作更麻烦、成本更高，甚至超出了雇用程序员编程。不少行业都渴望有一款简单的视频生成工具。”

根据月狐iAPP统计的数据，从2022年Q2到今年6月，在移动互联网的所有类别的APP中，短视频的使用时长占比均高达30%以上，为所有类别中最高。这样的需求，也一定程度表明在视频制作领域蕴含着一个巨大增量的“蓄水池”。

客观来看，虽然各大厂商企业竞相加码，但相关应用的优化迭代速度和商业化进程都较慢，大公司与初创团队势均力敌，文生视频应用的潜力还没有彻底被开发。如何找到视频生成时长、效果、成本之间的平衡点，这依旧需要在各自不断的实践中寻求最优解。

参考链接：

https://vvictoryuki.github.io/animatezero.github.io/

https://www.chinaz.com/2023/1212/1582268.shtml

https://baijiahao.baidu.com/s?id=1785065486791669561&wfr=spider&for=pc