2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频生成的新高度。
我们都还记得初见 Sora 作品时受到的震撼,感叹其他竞争对手想要赶上 OpenAI,至少也得需要个半年到一年的时间。
Sora 发布后,其开发团队自然也成为关注焦点,人们都想知道具有跨时代意义的 AI 技术是如何被开发出来的。DiT 模型作者谢赛宁曾表示:「他们每天基本不睡觉高强度工作了一年」。
随着时间推移,答案正被慢慢揭晓。
以下是 OpenAI 技术报告中,Sora 的十三位作者:
其中的前两位,Tim Brooks、Bill Peebles,他们被认为是「Sora 之父」,担任 OpenAI Sora 项目研究主管,又十分年轻 —— 两人都是 2023 年刚刚从加州大学伯克利分校(UC Berkeley)博士毕业的。
在 Sora 技术公开后,他们曾共同进行宣讲,接受过很多媒体采访。
图片中间为 Tim Brooks,右侧为 Bill Peebles。
看两人的工作经历,他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。
我们知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 横空出世,由此掀起了大模型「颠覆世界」的浪潮。
他们追随传奇而来,如今回头望去,自己也成为了传奇。
作为 Sora 背后的主要推动者,Tim Brooks、Bill Peebles 两人的博士毕业论文,也都是以 AI 视频生成为主题的。是时候从技术发展的角度,来研究一下 Sora 的来龙去脉了。
Tim Brooks
个人主页:https://www.timothybrooks.com/about/
Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。
在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型。博士毕业后,Tim Brooks 加入 OpenAI,参与过 GPT-4、Sora 等多项研究。
2023 年,Tim Brooks 顺利毕业,博士论文接近 100 页。论文题目为《Generative Models for Image and Long Video Synthesis 》。
论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf
论文简介
在这篇博士论文中,Tim Brooks 提出了将图像和视频生成模型用于一般视觉内容创作的基本要素,主要体现在三个方面:
首先,论文介绍了长视频生成相关研究,并提出一种网络架构和训练范式,用于从视频中学习长程时间模式,这是将视频生成从较短的剪辑推进到较长形式且连贯视频的关键挑战。
接下来,论文介绍了基于人体姿态生成场景图像的研究,展示了生成模型用来表示人与周围环境之间关系的能力,并强调了从大型且复杂的日常人类活动数据集中学习的重要性。
最后,论文介绍了一种通过结合大型语言模型和文本到图像模型的能力来创建监督训练数据,从而指导生成模型遵循图像编辑指令的方法。这些工作共同提升了生成模型合成图像和长视频的能力。
Tim Brooks 表示,在他读博期间(2019-2023 年),图像和视频生成模型已经从小范围的演示发展成被广泛采用的创意工具。他非常庆幸自己能在这个关键的时刻攻读视觉生成模型的博士学位,他也对生成模型充满了信心。
接下来我们介绍一下 Tim Brooks 博士论文每章节的主要内容。
第 2 章专注于生成具有丰富动态和新内容的长视频。图 2.1 展示了模型能够生成丰富的运动和场景变化。
来源:https://www.timothybrooks.com/tech/long-video-gan/
本章的主要贡献是一个分层生成器架构,生成器概览图如下所示。
第 3 章介绍了从反映日常人类活动的复杂现实世界数据中学习的研究。人、物体及其周围环境之间的相互作用提供了有关世界的丰富信息来源。Tim Brooks 提出了一种通过条件生成模型学习这些关系的方法。早期的生成模型主要集中在特定的内容类别上,例如人脸或特定的对象类。这项工作将生成模型扩展到用人类建模复杂场景的领域。只要输入一个人的骨骼姿态,该模型就能够生成与该姿态兼容的合理场景。该模型既可以生成空场景,也可以生成输入姿态中有人类的场景。
本小节还设计了一个条件 GAN 来生成与人类姿态兼容的场景,网络架构基于 StyleGAN2 ,如图 3.3 所示。
这篇论文还强调了通过对日常人类活动的大型视觉数据集进行训练,来理解视觉世界复杂关系的能力。
第 4 章提出了一种新技术,教生成模型遵循人类编辑指令。图 4.1 显示了模型执行图像编辑指令的示例,图 4.2 显示了在文本消息会话中使用的模拟接口。
由于难以大规模获取基于指令的图像编辑训练数据,该研究提出了一种生成配对数据集的方法,该方法结合了多个在不同模态上预训练的大型模型:大型语言模型(GPT-3 )和文本到图像模型(Stable Diffusion)。这两个模型捕获了关于语言和图像的互补知识,可以将它们结合起来为跨两种模态的任务创建配对训练数据,而这两种模态中的任何一个都无法单独完成。
使用生成的配对数据,Tim Brooks 训练了一个条件扩散模型,该模型在给定输入图像和有关如何编辑文本指令的情况下,生成编辑后的图像。该模型可以直接在前向传播中执行图像编辑,不需要任何其他示例图像、输入 / 输出图像的完整描述或每个示例的微调。尽管模型完全在合成示例上进行训练,但其实现了对任意真实图像和人类指令的零样本泛化。该模型可以按照人类指令执行各种编辑:替换对象、更改图像样式、更改设置、艺术媒介等。
最后,我们看一下论文中的一些结果。
与其他方法的比较结果如下:
总的来说,这篇博士论文确定了未来视觉生成模型的三个关键组成部分:随着时间的推移建模长程模式,从复杂的视觉数据中学习,以及遵循视觉生成指令。这三个要素对于开发超级智能至关重要,因为它可以执行复杂的视觉创造任务,帮助人类创造,并将人类的想象力带入生活。
William (Bill) Peebles
个人主页:https://www.wpeebles.com/
2023 年,William (Bill) Peebles 在伯克利人工智能研究中心获得了博士学位,导师是 Alyosha Efros,与 Tim Brooks 师出同门。
William (Bill) Peebles 本科毕业于麻省理工学院,曾在 FAIR、Adobe Research 和 NVIDIA 实习过。在攻读博士学位期间,他得到了美国国家科学基金会(NSF)研究生研究奖学金计划的支持。
William (Bill) Peebles 的博士论文以图像生成模型为主题,论文题目是《Generative Models of Images and Neural Networks》。
论文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y
论文简介
大规模生成模型推动了人工智能的最新进展。这种范式使得人工智能的许多问题取得了突破,其中自然语言处理(NLP)领域是最大的受益者。
给定一个新任务,预训练生成模型可以零样本地解决该任务,也可以在少量特定于任务的训练样本上进行有效的微调。
然而,在视觉、元学习等领域,生成式模型的进展却落后了。
William (Bill) Peebles 的博士论文研究了训练改进的、可扩展的两种模态(图像和神经网络参数)的生成式模型的方法,并研究了如何利用预训练生成式模型来解决其他下游任务。
首先,该论文证明保留了扩散模型图像生成扩展特性的扩散 transformer(DiT),优于之前主导该领域的卷积神经网络。
值得注意的是,DiT 架构是在一篇题为《Scalable Diffusion Models with Transformers》的论文中被正式提出的,第一作者就是 William Peebles,另外一位论文作者是纽约大学的谢赛宁。
然后,William (Bill) Peebles 的博士论文提出了一种新型学习框架,旨在基于构建新数据源(神经网络检查点)的生成式模型进行学习。
该论文创建了包含数十万次深度学习训练运行的数据集,并使用它来训练生成式模型。给定起始参数向量和目标损失、错误或奖励,在此数据上训练的损失条件扩散模型可以对实现所需指标的参数更新进行采样。
这种方法克服了以前元学习算法的许多困难 —— 它可以优化不可微目标,并省去不稳定的展开优化方法。与 SGD 和 Adam 等基于梯度的迭代优化器无法从优化历史中学习不同,该论文提出的生成模型只需一次生成的参数更新即可通过随机初始化来优化神经网络。
该论文证明,预训练 GAN 生成器可用于创建无限数据流来训练网络,以解决密集视觉相关问题,而无需任何人工注释的监督。该论文表明,采用完全由 GAN 生成的数据进行训练的神经网络,性能优于之前在真实数据上训练的自监督和关键点监督方法。
该论文将所提框架应用于视觉和强化学习问题,并探讨了如何使用预训练图像级生成模型来处理视觉领域的下游任务,而无需特定于任务的训练数据。