不公开！不会音视频一锅出！Sora团队最新采访透露了一个训练细节-51CTO.COM

撰文&编译 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

AI视频生成模型仍然热闹不断！

上一周，Pika支持音效同步生成功能，终于实现了音频、视频“一锅出”；看国内，阿里在推出令人惊艳的EMO框架后，再发图像转视频模型AtomoVideo，一张海报就能生成吸睛的时尚大片。

Sora团队的最新采访中，团队领导者Bill Peebles、Aditya Ramesh和Tim Brooks做客科技博客WVFRM Podcast，分享了他们对Sora获得全球关注的感受并透露了正在努力的方向。

在采访中，他们也被问到Sora是否会跟进音效生成功能，团队负责人委婉表示，一锅出是很好——但我们先专注做好视频再说吧！

划重点：

Sora训练的一个创新之处是使用了多样化的视频数据，这使得Sora能够灵活生成不同尺寸和分辨率的视频。
尽管Sora在视频逼真度上取得突破，但在处理复杂物理现象和细节上仍有待提高。
Sora团队把提高用户对视频生成细节的控制能力作为未来努力的方向，以探索AI视频生成技术的新突破。
面对AI视频生成可能带来的社会挑战，Sora团队正在探索如何通过技术手段（如来源分类器）来帮助识别AI生成的视频，并且计划在短期内不向公众开放使用。

图片

以下为Sora团队在WVFRM Podcast的对话整理：

WVFRM Podcast：我看了Sora的技术报告，还有你们提供的示例视频，留下了非常深刻的印象。你能否非常简洁地解释，Sora究竟是如何工作的吗？

Sora：概括性地说，Sora是一个生成模型。过去几年里，涌现了许多非常酷的生成模型，从GPT这样的语言模型到DALL·E这样的图像生成模型。Sora是一个视频生成模型，它通过查看大量视频数据并学习以完全相同的方式生成逼真的视频。

它实际上结合了像DALL·E这样的基于扩散模型的技术，以及像GPT这样的语言模型技术。它在训练上类似于DALL·E，但在架构上更像GPT。但从高层次上讲，它只是被训练来生成现实世界和数字世界的视频，以及各种内容。

WVFRM Podcast：就像生成模型一样，Sora基于训练数据可以创造非常多的东西。Sora是用什么训练的？

Sora：我们不能透露太多细节，但它是基于公开可用的数据以及OpenAI授权数据进行组合训练的。我们在创建Sora时的一个创新是使其训练不同时长、不同宽高比和分辨率的视频。这真的很新颖。

以前在训练图像或视频生成模型时，人们通常会在非常固定的（素材）尺寸上训练，例如只有一个分辨率。但我们做的是，我们接受各种宽高比、高分辨率、低分辨率的图像和视频，并将它们都变成小块，我们称之为补丁，然后我们能够根据输入的大小训练不同数量的补丁的视频。这使我们的模型能够非常灵活地训练更多样化的数据，并且能够用于生成不同分辨率和大小的内容。

WVFRM Podcast：你们对Sora的使用、构建和优化已经有一段时间了，显然视频中有很多反应，比如我制作视频，我知道有光线反射、各种物理现象和物体移动等。你们发现Sora在当前状态下擅长什么，或者有哪些特定的弱点，比如我稍后会展示的视频（下图），其中一只手上有六个手指。

图片

Sora：Sora在（生成视频的）逼真度方面确实取得了很大的进步，（并且）视频可以非常长，长达一分钟，这确实是从以前的生成视频工具中迈出的一大步。

但它仍然在一些方面存在困难，比如你提到的手部，以及一些物理方面。例如，在prompt里要求生成一个3D打印机，你可以看到它并没有完全做对。

图片

WVFRM Podcast：Sora做得好的地方真的很有趣，就像你说的那样，（Sora生成的视频）有很好的逼真度，光线和反射，甚至是特写和纹理。

不过，这些视频中没有声音，我非常好奇，添加声音到这些视频中是否比想象的更复杂，你觉得离能够同步生成声音的AI视频还有多远？

Sora：很难给出这类事情的确切的时间线。对于Sora，我们真的很专注于推动视频生成模型的能力向前发展。在此之前，很多AI生成的视频只有四秒钟，帧率相当低，质量也不好。

所以目前为止，我们的大部分努力都在（视频生成能力）这里。我们同意，添加音频内容会使视频更具沉浸感。所以，这是我们肯定在考虑的事情。但现在Sora主要是一个视频生成模型，我们专注于推动这一领域内的能力。

WVFRM Podcast：DALL·E随着时间的推移已经改进了很多，它在很多方面的表现都提高了。你们也一直在不断地努力使Sora变得更好。

Sora需要达到什么样的标准，（才会让）你们觉得它已经足够好，可以向用户公开使用了？我们期待有一个MIC drop（编者注：指把话筒故意脱手掉到地上以示演出结束）时刻，（在这之后）你们如何确定继续努力的方向，让Sora变得更好？

Sora：我们以博客文章形式发布Sora的主要动机，就是获取反馈，以了解Sora对人们如何有用，以及需要进行哪些安全工作，这将真正（帮助）我们设定研究路线图。

但是它目前还不是一个（成熟的）产品。它还没有在ChatGPT或其他任何地方可用，我们甚至没有将其转化为产品的时间线，现在我们正处于获取反馈的阶段。

所以我们肯定会改进它，但我们应该如何改进它还是一个待解决的问题，我们想让世界看到这个即将到来的技术。我们听取人们的意见，Sora对用户来说有什么用？听取安全专家的意见，我们如何使Sora对世界（来说是）安全（的）？开始听取一些艺术家的意见，这在你们的工作流程中有什么用？这真的将设定我们优化Sora的工作。

WVFRM Podcast：那么你们接下来有什么计划？

Sora：我们确实收到了一些反馈，人们对于更进一步地控制（视频中的）细节非常感兴趣。所以这将是一个有趣的发展方向。目前，你可能只有一个相当简短的提示，但人们真的对（未来）生成的视频有更多控制感兴趣。

WVFRM Podcast：很有趣。我可以想象，例如想生成宽屏的（视频），或者垂直的（视频），或者（视频中的）光线充足，类似的东西，这样就不用担心提示工程（prompt engineering）。

你们已经研究生成视频模型很长时间了，在未来，是否可以生成一个与真实视频无法区分的AI视频？因为这就是DALL·E随着时间推移的进化方式——它可以制作出来一个非常逼真的图片。（AI生成的视频与真实视频没有差别）你认为这是实际上可能的事情吗？

Sora：我认为这最终是可能的。当然，随着我们接近这一点，我们希望更谨慎地公开这些能力，以便社交媒体上的人能知道一个视频基本上是真实的还是假的，以及（确认）他们看到的视频来自一个可信的来源。我们希望确保（AI视频生成）能力不会被用于可能持续传播误导信息的场景。

WVFRM Podcast：Sora生成的视频的右下角有一个水印，这显然非常重要，但这样的水印可以被裁剪。我很好奇，你们是否考虑过其他方法，可以轻松识别AI生成的视频，特别是像Sora这样（非常逼真）的工具？

Sora：是的，对于DALL·E-3，我们训练了来源分类器，可以判断一个图像是否由模型生成，或者给定的图像是否由模型生成。我们正在努力将这项技术适应到我们的视频模型中，这不会是一个完整的解决方案，但这是一个开始。

WVFRM Podcast：明白了，有点像元数据，或者像一种嵌入式的旗帜。如果你处理这个文件，你知道它是AI生成的。

Sora：我们训练的分类器可以运行在任何图像或视频上。它会告诉你，它是否认为这个内容由我们的模型生成。

WVFRM Podcast：我还很好奇，你对其他人对Sora的评价有什么感觉？有很多这样的反馈，“这太酷了”、“这太神奇了”、“我的天哪”、“我的工作不保了”，你如何看待这些反馈？

Sora：我觉得很多反馈都与“接下来会发生什么的”焦虑相关。我们确实感觉到了（这些情绪），就我们的使命而言，我们需要确保Sora以安全的方式部署，并且以负责任的态度对待所有与视频生成相关的事情。

但我也感觉到了很多机会，比如现在，有一个人想要制作电影，（但）很难获得足够的资金来真正制作这部电影。因为制作电影的预算非常大，制作公司必须意识到他们所做的投资所带来的风险。所以我认为AI一个很酷的使用方式是，它可能大幅降低了从想法到完成视频的成本。

WVFRM Podcast：Sora和DALL·E有很多相似的地方。当DALL·E变得非常好时，我开始使用它作为头脑风暴工具，可以用它制作视频的缩略图。我可以看到Sora同样有很多非常酷的用途。我知道你没有明确的时间线，但你提到你们目前处于测试阶段。你认为Sora会很快进入到开放使用的阶段吗？

Sora：我想不会。

WVFRM Podcast：好的，我的最后一个问题是关于未来的。当Sora能制作五分钟的YouTube视频，并能配合声音和完美的逼真度时，（AI）下一个应该涉足的媒介是什么？

AI生成已经从照片走向了视频这个全新的维度，视频有时间和物理（规律），以及所有新的变量，例如反应和声音。你们比我想象之中更快地跳入了这个领域。AI生成媒体内容的下一个领域可能是什么？

Sora：让我非常兴奋的是，AI工具的使用将如何进化并创造全新的内容，我认为这很大程度上将是我们从人们如何使用这些工具当中，获得新的启发。通常想到AI工具如何被用来创造已经存在的东西是简单的。虽然实际上，我认为AI将使我们能够创造全新的内容类型。但却很难（预先）知道那是什么，直到它落入最有创造力的人手中。

当这些有创造力的人拥有新工具时，他们会做出惊人的事情，他们会创造出以前不可能的新事物。这真的是我长期以来感到激动的事情，AI工具如何帮助人们创造完全新的媒体体验。

但我认为，这将是非常激动人心的，（而我们）只是允许真正有创造力的人通过制作全新的工具来推动创意的边界。

WVFRM Podcast：是的，因为我们知道Sora是基于现有内容进行训练的，所以它只能基于已经存在的东西来创造。你如何让Sora变得有创造力，我想象你必须在提示工程的学习曲线上（learning curves of prompt engineering）做文章，并发现应该怎样对Sora进行提示。这样说准确吗？

Sora：除了基于文本的提示之外，模型还具有其他一些很酷的能力。在我们与Sora一起发布的研究帖子中，我们展示了一个例子，是两个输入视频之间的混合。

那是一个非常酷的案例，左侧的视频开始是无人机飞越罗马竞技场，而右侧的视频逐渐过渡到像蝴蝶在水下游泳。在视频中有一个点，竞技场开始逐渐衰败，看起来像是被珊瑚礁覆盖，部分处于水下。这类生成的视频开始给人一种过去技术所无法带来的新感觉，我们对这些视频效果感到兴奋，甚至不仅仅是作为人们可以使用像Sora这样的技术生成的新体验。

在某种程度上，我们真的将模拟现实视为超越（旧技术）的第一步。

WVFRM Podcast：是的，Sora的技术越成熟，就越能模拟现实。用户就更能够在此基础上建立（新的现实）。理想情况下，这将能够解锁创意的无限可能。最后，你们还有什么想说的吗，无论是关于Sora还是OpenAI？

Sora：我们对从视频数据中学习如何让AI变得更有用而感到兴奋，而不仅仅是创造视频，（这是）因为我们生活在一个视觉化的世界。就像我们正在看的视频一样，世界上有很多信息不是以文本形式存在的。虽然像GPT这样的模型非常智能，了解很多关于世界的事情，但当它们没有以我们看视觉世界的方式看到世界时，它们就会遗漏一些信息。

因此，我们对Sora和其他基于Sora构建的AI模型的未来感到兴奋的是，通过从视觉数据中学习关于世界的信息，它们将有望更好地理解我们生活的世界，并在未来更好地帮助我们。

WVFRM Podcast：我非常期待，最终能够在Sora中实现更多可能的那一刻。

WVFRM Podcast（补充）：我忘了在录音期间问他们，但每个人都想知道这个问题：用Sora生成一个视频需要多长时间？我在结束采访后又问了他们，答案是这取决于你的提示词。但（在生成视频时）你可能会离开，买杯咖啡，回来时它仍在处理视频——看起来需要一段时间。

采访链接：https://www.youtube.com/watch?v=Srh1lut4Q2A