生成式视频的下一步是什么

发布于 2024-4-12 15:35

浏览

0收藏

上个月，当OpenAI公布其新的生成式视频模型Sora时，邀请了一些电影制作人来试用。本周，该公司发布了结果：七部超现实的短片，毫无疑问地表明了生成式视频的未来即将迅速到来。

首批能将文本转化为视频的模型出现在2022年末，来自Meta、谷歌和视频技术初创公司Runway等公司。这是一个很棒的技巧，但结果是颗粒状、出现故障，并且只有几秒钟长。

快进18个月，Sora的高清、逼真的最佳输出令人震撼，一些激动的观察者甚至预言好莱坞的死亡。Runway的最新模型可以生成与大片动画工作室相媲美的短片。Midjourney和Stability AI，两家最受欢迎的文本转图像模型背后的公司，现在也在致力于视频领域的研发。

许多公司正在竞相利用这些突破来开展业务。大多数公司在探索过程中才逐渐明确这种业务是什么。“当使用这些工具时，我经常会兴奋地尖叫‘哇，这太酷了’，”Vyond的首席执行官Gary Lipkowitz说道，Vyond是一家提供点对点，点击平台来制作短动画视频的公司。“但是你如何在工作中使用它呢？”

无论对这个问题的答案是什么，它都可能彻底改变各种业务，并改变从动画制作人到广告商等许多专业人士的角色。对于滥用的担忧也在增长。广泛使用生成虚假视频将使网络充斥着宣传和非自愿色情，这比以往任何时候都更容易。我们可以看到这种情况正在发生。问题是，没有人有一个好的解决方案。

当我们继续探索未来的前景——无论是好是坏——以下是四个需要考虑的事情。我们还精选了一些制作人使用这项技术制作的最佳视频，其中包括洛杉矶制作公司Myles的实验性短片《Somme Requiem》的独家展示。继续阅读，了解人工智能电影制作的发展方向。

1. Sora 只是一个开始

目前，OpenAI 的 Sora 在视频生成领域遥遥领先于竞争对手。但其他公司也在努力赶上。随着更多公司完善其技术并开始推出 Sora 的竞争对手，未来几个月市场将变得极其拥挤。

总部位于英国的初创公司 Haiper 本月刚刚走出隐身状态。它由前谷歌 DeepMind 和 TikTok 的研究人员在 2021 年创立，他们想要研究称为神经辐射场或 NeRF 的技术，该技术可以将 2D 图像转化为 3D 虚拟环境。他们认为，将快照转化为用户可以进入的场景的工具对于制作视频游戏将会非常有用。

但是，六个月前，Haiper 将重心从虚拟环境转移到了视频剪辑上，调整其技术以适应首席执行官 Yishu Miao 认为将比游戏市场更大的市场。“我们意识到视频生成是最佳方向，”Miao 表示。“对此将会有超高的需求。”

生成式视频的下一步是什么-AI.x社区

，时长01:21

“Air Head” is a short film made by Shy Kids, a pop band and filmmaking collective based in Toronto, using Sora.

与 OpenAI 的 Sora 类似，Haiper的生成式视频技术使用扩散模型来管理视觉效果，并使用transformer（类似于 GPT-4 这样的大型语言模型中的组件，使它们在预测接下来会发生什么方面表现出色）来管理帧之间的一致性。“视频是数据序列，而transformer 是学习序列的最佳模型，”Miao 表示。

一致性是生成式视频的一个巨大挑战，也是现有工具一次仅生成少量视频的主要原因。用于视频生成的transformer 可以提高剪辑的质量和长度。不利之处在于，transformer 会编造东西，或者产生幻觉。在文本中，这并不总是明显的。在视频中，这可能导致，比如一个具有多个头的人。保持transformer 在正确轨道上需要大量的训练数据和成堆的计算机。

这就是为什么由前微软研究人员创立的 Irreverent Labs 采取了一种不同的方法。与 Haiper 类似，Irreverent Labs 最初是为游戏生成环境，然后转向全面的视频生成。但该公司不想通过复制 OpenAI 和其他公司的做法来随波逐流。“因为那样的话，这就是一场计算机的战争，一个完全的 GPU 战争，”Irreverent 的联合创始人兼首席技术官 David Raskino 表示。“在这种情况下，只有一个赢家，他穿着皮夹克。”（他指的是价值万亿美元的芯片巨头 Nvidia 的 CEO Jensen Huang。）

与使用transformer 不同，Irreverent 的技术将扩散模型与根据常识物理学（例如球如何弹跳或水如何溅在地板上）来预测下一帧内容的模型相结合。Raskino 表示，这种方法既降低了训练成本，又减少了幻觉的数量。他说，该模型仍然会产生故障，但它们是物理学的扭曲（比如弹跳的球不遵循平滑曲线），这些问题有已知的数学修复方法可以应用到生成的视频中。

哪种方法会持久还有待观察。Miao将今天的技术与 GPT-2 时代的大型语言模型进行了比较。五年前，OpenAI 的突破性早期模型让人们惊叹，因为它展示了可能性。但是，该技术需要几年时间才能成为一个改变游戏规则的技术。

Miao表示，视频也是如此：“我们都处于山脚下。”

2. 人们会如何利用生成式视频

视频是互联网的主要媒介。YouTube、TikTok、新闻片、广告：在已有视频的地方，预计会看到合成视频的出现。

营销行业是最热衷于采用生成技术的行业之一。根据 Adobe 最近在美国进行的一项调查，三分之二的营销专业人士在工作中尝试过生成式人工智能，其中超过一半的人表示已经使用该技术制作过图像。

生成式视频是下一个目标。一些营销公司已经发布了短片，以展示技术的潜力。最新的例子是由 Myles 制作的时长 2.5 分钟的《Somme Requiem》。您可以在 MIT Technology Review 的独家报道中观看该影片。

生成式视频的下一步是什么-AI.x社区

“Somme Requiem” is a short film made by Los Angeles production company Myles. Every shot was generated using Runway's Gen 2 model. The clips were then edited together by a team of video editors at Myles.

《Somme Requiem》描述了1914年第一次世界大战期间的圣诞节停战期间被困在雪中的士兵。这部电影由数十个不同的镜头组成，这些镜头是使用Runway的生成式视频模型制作的，然后由Myles的人类视频编辑人员进行拼接、色彩校正，并配以音乐。“未来的叙事方式将是混合工作流程，”创始人兼首席执行官Josh Kahn说道。

Kahn选择战时背景是为了表明自己的观点。他指出，苹果电视+系列电影《Masters of the Air》耗资2.5亿美元，讲述的是一群二战飞行员的故事。彼得·杰克逊的第一次世界大战纪录片《They Shall Not Grow Old》的团队花了四年时间策划和修复了100多小时的档案影片。“大多数电影制作人只能梦想有机会在这个类型中讲述一个故事，” Kahn说。

“独立电影制作有点儿式微，”他补充道。“我认为这将会引发令人难以置信的复苏。”

Raskino也希望如此。“恐怖电影类型是人们测试新事物的地方，尝试新事物直到它们被打破，”他说。“我认为我们将会看到由四个人在某个地下室里使用人工智能创作的一部轰动的恐怖电影。”

那么，生成式视频会摧毁好莱坞吗？还没有。《Somme Requiem》中的背景镜头——空无一人的树林，荒凉的军营——看起来很棒。但其中的人物仍然受到了残缺不全的手指和扭曲的面容的困扰，这是技术的标志。生成式视频最擅长的是广角全景或延时特写，这创造了一种怪异的氛围，但几乎没有行动。如果《Somme Requiem》再长一点，它就会变得乏味。

但是，电影中经常出现场景设定镜头。大多数镜头只有几秒钟长，但拍摄起来可能需要几小时。Raskino建议，生成式视频模型很快就可以用于以极低的成本制作这些中间镜头。这也可以在制作的后期阶段实时完成，而不需要重新拍摄。

Gen Digital 的首席技术官Michal Pechoucek，该公司是一家网络安全巨头，旗下拥有包括Norton和Avast在内的一系列杀毒软件品牌，表示同意。“我认为技术的发展方向就是这样，”他说。“我们将看到许多不同的模型，每个模型专门针对电影制作的某个领域进行训练。这些只是由有才华的视频制作团队使用的工具。”

我们还没有完全达到这一点。生成式视频的一个重大问题是用户对输出的控制能力有限。生成静态图像可能会命中或失误；生成几秒钟的视频甚至更加风险。

“现在还很有趣，你会有恍然大悟的时刻，”Miao说道。“但生成完全符合你要求的视频是一个非常困难的技术问题。从一个单一提示生成长而一致的视频还有一段路要走。”

这就是为什么Vyond的Lipkowitz认为，这项技术对大多数企业客户来说尚未准备好。他说，这些用户对视频外观的控制想要比当前工具给予的更多。

全球数千家公司，包括约65％的《财富》500强企业，使用Vyond的平台为内部沟通、培训、营销等创建动画视频。Vyond利用了一系列生成模型，包括文本到图像和文本到语音，但提供了一个简单的拖放界面，让用户一步一步手动组合视频，而不是一键生成完整的剪辑。

运行生成模型就像掷骰子一样，Lipkowitz说。“对于大多数视频制作团队来说，这是一个明确的拒绝，特别是在企业部门，其中一切都必须完美无瑕并符合品牌标准，”他说。“如果视频出现问题——也许人物有太多手指，或者可能有一个颜色错误的公司Logo——那就不幸了，这就是生成AI的工作原理。”

解决方案？更多的数据，更多的训练，不断重复。“我希望我能指向一些复杂的算法，”Miao说道。“但不，这只是更多的学习。”

3. 虽然误导信息并不是新鲜事，但深度伪造视频会使情况变得更糟

多年来，网络误导信息一直在破坏我们对媒体、制度和彼此的信任。一些人担心，将虚假视频加入混合中会摧毁我们留下的任何共同现实的支柱。

“我们正在用不信任、困惑、恐惧和仇恨取代信任，”Pechoucek说。“没有基本事实的社会将会堕落。”

Pechoucek特别担心深度伪造视频在选举中的恶意使用。例如，在去年的斯洛伐克选举中，攻击者分享了一个虚假视频，显示领先的候选人讨论了操纵选民的计划。这段视频质量低，很容易识别为深度伪造。但Pechoucek认为这已足以扭转结果，使其有利于另一位候选人。

生成式视频的下一步是什么-AI.x社区

“Adventurous Puppies” is a short clip made by OpenAI using with Sora.

Blackbird AI是一家跟踪和管理网络误导信息传播的公司，该公司的战略和创新团队负责领导。该公司的约翰·维辛格认为，当假视频融合真实和虚假镜头时，假视频会最具说服力。拿总统乔·拜登走过舞台的两段视频为例。一段视频中他摔倒了，而另一段没有。谁能说哪个是真实的？

“假设某个事件确实发生了，但呈现给我的方式略有不同，”维辛格说。“这可能会影响我的情感反应。”正如Pechoucek所指出的那样，一个假视频甚至不需要很好，就足以产生影响。维辛格说，一个符合现有偏见的糟糕伪造视频将比一个精心制作但与现实不符的伪造视频造成更大的伤害。

这就是为什么Blackbird专注于谁与谁分享什么。在某种意义上，某事物是真是假并不像它来自何处以及它如何传播那样重要，维辛格说。他的公司已经追踪低技术误导信息，例如在社交媒体上展示真实图像但上下文不明确的帖子。生成技术使情况变得更糟，但是人们以误导的方式呈现媒体的问题，无论是有意还是无意，都不是新问题，他说。

如果将机器人混入其中，在社交网络上分享和推广误导信息，情况会变得混乱。只要知道有假媒体存在，就会在恶意讨论中播下怀疑的种子。维辛格说：“你可以看到，很快就可能变得不可能再分辨出什么是合成的，什么是真实的了。”

4、我们正面临着一个新的网络现实

伪造品很快将无处不在，从虚假信息宣传活动，到广告片，再到好莱坞大片。那么，我们该如何区分现实和幻想呢？有一系列解决方案，但单独任何一个都不足以解决问题。

科技行业正在研究这个问题。大多数生成工具尝试强制执行某些使用条款，比如防止人们创建公众人物的视频。但是有方法可以绕过这些过滤器，而开源版本的工具可能带有更宽松的政策。

公司还在制定AI生成媒体的水印标准和检测工具。但并非所有工具都会添加水印，而且水印可以从视频的元数据中去除。也不存在可靠的检测工具。即使这样的工具有效，它们也将成为一场追赶模型进步的猫鼠游戏的一部分，这些模型旨在监管这些工具。

生成式视频的下一步是什么-AI.x社区

像X和Facebook这样的在线平台在内容管理方面的记录很差。一旦问题变得更加棘手，我们不应指望它们能够做得更好。Miao曾在TikTok工作，在那里他帮助构建了一个内容管理工具，用于检测违反TikTok使用条款的视频上传。即使是他也对即将发生的事情感到担忧：“真的存在着危险，”他说。“不要相信你在笔记本电脑上看到的东西。”

Blackbird开发了一个名为Compass的工具，它可以用来对文章和社交媒体帖子进行事实核查。将链接粘贴到该工具中，一个大型语言模型将从可信的在线来源（维辛格说这些始终可以审查）中生成一个简短摘要，为链接的材料提供一些背景信息。其结果与X、Facebook和Instagram等网站上有时会附加到有争议的帖子上的社区注释非常相似。该公司设想Compass为任何内容生成社区注释。“我们正在努力实现这一目标，”维辛格说。

但是，将链接放入事实核查网站的人已经相当精明了，而许多其他人可能不知道这样的工具存在，或者可能不愿相信它们。误导信息往往也比任何随后的更正传播得更广泛。

与此同时，人们对这究竟是谁的问题存在分歧。Pechoucek表示，科技公司需要开放其软件，以促进围绕安全和信任的竞争。这也将使他这样的网络安全公司能够开发第三方软件来监管这项技术。他说，这就是30年前Windows出现恶意软件问题时发生的事情：“微软允许杀毒软件公司进入帮助保护Windows。结果，网络世界变得更安全了。”

但是Pechoucek并不太乐观。“技术开发者需要以安全为首要目标来构建他们的工具，”他说。“但更多的人考虑如何使技术更强大，而不是担心如何使其更安全。”

生成式视频的下一步是什么-AI.x社区