AI智能体联手GPT-4淘汰人类导演！模仿斯坦福西部世界拍出《南方公园》-51CTO.COM

AI Agent，又给我们带来了亿点点震撼——AI智能体直接晋升导演，拍出了一集《南方公园》！

没错，编剧、动画、导演、语音、编辑……剧集制作的全流程，都是由AI完成。

初创公司Fable新发布的节目统筹智能体（Showrunner），如同一声惊雷炸响。

项目的灵感，就来自于此前斯坦福爆火的西部世界虚拟小镇论文，其中25个AI智能体居住在包含学校、医院、家庭的沙盒虚拟城镇中。

而在这次的《南方公园》中，同样是一群AI角色通过复杂的社交互动来推动自己的日常生活，每个人都有自己独特的背景故事、个性和动机。

图片

论文地址：https://fablestudio.github.io/showrunner-agents/

在多智能体无梯度架构的驱动下，每个角色的完整经历都会被存储为自然语言。随着时间的推移，这些记忆会被合成更高层次的反射，随时动态检索，来实时计划每个角色的行为。

而人类导演只需要给出一个高层次的构思提示（标题、概要、事件），这些AI智能体就会开始「自导自演」了！

其中，两个在《南方公园》数据集（约1200个角色和600张场景）上训练的自定义扩散模型，可以生成新角色和新场景，一个超分辨率模型（R-ESRGAN-4x+-Anime6B）可以将场景放大。

语音克隆AI（如ElevenLabs），可以给角色即时配音。

英伟达首席AI科学家Jim Fan兴奋断言：多智能体模拟，将是新兴智能的下一个前沿！

图片

Fable也激动地介绍说：在用生成式AI生成image的伟大时代，Gen TV和Showrunner智能体会彻底改变游戏规则！

想象一下，用这个AI智能体，你可以重新拍出《权力的游戏》最后一季，让它给你一个崭新的结局，甚至让你自己成为其中的主角，这可太科幻了……

网友：谁还不是个模拟了？

要知道，随着LLM和图像/视频生成模型越来越强大，多智能体模拟创作的内容，将远远超乎我们的想象。

所以，这仅仅是个开始。

Fable的研究者表示：所以单个AI Agent都会将失败，因为他们没有生命，无法共情——没有人会想当个缸中之脑，无休止地和人闲聊。

他们提出呼吁：AI应该有自己的生活，为此我们需要建立属于AI的社会。我们需要的不是更多的「Her」，而是真正的「自由人」！

图片

网友们激动表示：这太炸裂了！

「能不能来个AI真人秀？我们围观这些AI智能体，让他们做任务、相互投票，看看社会动力学是怎么发挥作用的。」

图片

「作为独立对齐研究的先锋，让真正的AI写下自己的背景故事，意识到自己是有知觉的——这就是目前的现实。」

图片

有人表示：要真说起来，咱们和AI谁还不是模拟了？只不过它们生活在虚拟世界中，我们生活在矩阵中……

图片

有人觉得，这似乎是AI对人类喜剧的蹩脚模仿……

图片

有人干脆怀疑，这是不是一出行为艺术，看起来真的像假人假公司啊。（也是有点黑色幽默了）

图片

这篇论文不是恶作剧吗？网站，论文和从事这项工作的人，一切都感觉特别超级假，简直就像GPT-4和Midjourney生成的一样

以后，或许就是虚拟世界教现实来做事了。

AI写的剧本，行不行？

负责人介绍说，项目的目标一直都是AGI，只有AGI，才是真正活着的AI，AI聊天机器人还远远算不上。

它们会在模拟世界中过着真实的日常生活，还会随着时间推移而不断成长。

图片

在这个虚拟世界中，我们可以观看AI的生活，就仿佛一场属于AI的真人秀。

在南方公园这个模拟小镇中，你可以用Showrunner制作自己的电视剧IP。

图片

在整个过程中，你可以让智能体为你自动写剧本，还可以给Showrunner一两句话的prompt。

如果你希望深入地了解细节，就可以通过prompt逐个编辑每个场景的对话。

图片

智能体写出的剧情，是什么水平？让我们来赏析一下。

图片

在视频开头，会介绍一段Westland编年史。

一家邪恶的公司Bizney创造出一只机器猪作为人类的AI伴侣，这只机器猪有严重的种族主义倾向，使公司陷入了一场公关噩梦。

图片

剧中的主人公发现，马斯克绑架了所有的好莱坞当红顶级演员，让他们来火星陪他一起生活。

而自90年代以来，我们见到的很多明星，比如汤姆克鲁斯和梅丽尔斯特里普，其实都是他们的DeepFake。

图片

最有趣的是，考虑到网友们或许自己也想成为「剧中人」，所以Fable特意新建了一个上传功能，让用户可以上传自己的照片和声音，出现在节目中。

现有生成式AI在创作上的局限

当前的生成式AI还是有一些局限。

如Stable Diffusion和ChatGPT在短期的一般任务中表现出色，然而，在长期创作过程中，它们却没有向用户或Showrunner这样的自动故事生成系统提供任何上下文指导，或表现出意向性。

但如果想做出高质量的创意作品，长期的创作过程是至关重要，尤其在现今IP开发的背景下。

生活在不确定性中

多智能体模拟，能让内容产品与IP故事世界更加一致。用户可以利用角色的个人经历、目标和情感、以及模拟事件和地点等数据来生成相关的场景和图像资产。

基于IP的模拟还为用户提供了他们熟知的故事背景，使用户能够更轻松地对生成的故事进行判断。

此外，通过人机交互，让用户对智能体的对话系统进行控制、观察和交流，从而让智能体学会用户的愿望和意愿，然后智能体在生成回复的时候就可以照着用户的愿望和期待来生成。

就像生成个马老板，让他来回答你的问题！

我们的模拟足够的复杂且随机，有利于期望验证效应（positive disconfirmation）。放大效应有助于缓解我们认为是不良的「老虎机」效应，我们稍后会简要提及。

我们习惯被动的观看，输入关键词，立即就会跳出「场景/剧集」结果。这一过程的时间跨度不鼓励用户立即判断，减少了他们「重试」的欲望。

用户简单的输入和产生的高质量长篇输出剧集之间的不对称是期望验证效应的一个关键因素。

但是使用和prompt大型语言模型作为该过程的一部分可能会带来「几个挑战」。

某些像幻觉这样增加不确定性的效应，可以为故事增加创造性，它们就像创作过程中的「幸运意外」。如果不过度破坏逻辑，这些「意外」可以增强用户体验。

所以合理引入一些随机性和不确定性，可以产生积极的创造性效果，增强用户体验。关键是要保持逻辑自洽、不要完全破坏剧情，让系统可以从中恢复。

「老虎机效应」

「老虎机效应」是指人工智能生成的内容更像是随机组合生成的内容，而不是有目的性的创作过程。这是由于人工智能生成过程的不可预测和瞬时生成的性质造成的。

当前的生成式人工智能系统不支持或鼓励在长期创意目标的背景下进行多个创意评估步骤。它们的界面通常具有各种设置，例如滑块和输入字段，这些设置增加了控制水平和变化性。

图片

但是，最终的输出基本上是通过按下按钮瞬间生成的。这种瞬时生成过程会给用户带来即时满足，使他们的多巴胺喷涌......

这种奖励机制在很长一段时间内有助于维持多步骤的创作过程，但当前的界面、奖励频率和缺乏进展（陷入无限循环）可能会导致负面影响，例如挫败感、理想—实际生成之间的鸿沟或失去对创作过程的控制。

这种鸿沟是有利于即时满足的行为偏见造成的，这对长期创作的目标来说可能是有害的。

虽然我们不通过界面直接解决这些问题，但是在模拟中对过程进行情景化设定、采用输入、输出之间的时间控制将有助于减轻老虎机效应对创作的负面影响。

此外，我们认为在模拟过程中为角色设定discriminator(判别器)，让他们参与创作评估过程，也是一个缓解老虎机效应的方法。

例如让一个智能体反思他被分配的角色，或者他应该表演的场景。

生成故事系统的多步骤「试错」过程不会呈现给用户，系统不允许干预或判断。这样可以避免用户在做出「接受或拒绝」决定时产生的对即时满足的负面影响。

对于用户体验来说，人工智能系统重试不同提示链的频率并不重要，只要生成过程不是被负面地感知为空白时间，而是能无缝集成到与模拟游戏玩法中。

用户只在整个过程的最后，在观看生成的场景或剧集后才扮演鉴别者的角色。这也是一个利用人类反馈强化学习(RLHF)概念来改进多步创作过程及结果的自动生成剧集的方法。

大语言模型

LLM通常基于Transformer架构构建，这类模型依赖于自注意力机制。Transformer能够高效利用计算资源，使得训练更大规模的语言模型成为可能。

例如，GPT-4包含数十亿个参数，在大规模数据集上训练，在其权重中有效编码了大量的世界知识。

图片

向量嵌入（vector embeddings）的概念对这些大语言模型的运行机制至关重要。它们是将词或短语表示为高维空间中的数学表示。这些嵌入捕获了词之间的语义关系，语义相似的词在嵌入空间中位置邻近。

在大语言模型中，模型词汇表中的每个词起初都表示为一个稠密向量,也称为嵌入。这些向量在训练过程中被调整，它们的最终值或者说「嵌入」，表示了单词之间的学习关系。

在训练过程中，模型通过调整嵌入和其他参数来最小化预测词和实际词之间的差异，以预测句子中的下一个词。因此,嵌入反映了模型对词及其上下文的理解。

图片

此外，由于Transformer可以关注句子中任意位置的词，模型可以形成对句子含义更全面的理解。这是对旧模型只能考虑有限窗口中的词的重大进步。

向量嵌入和Transformer体系结构的结合使得大语言模型可以更加深入细致地理解语言，这就是为什么这些模型可以生成如此高质量、类人的文本的原因。

如前所述，基于Transformer的语言模型擅长短期的一般任务。它们被视为是用快速思维的方式在运行。快速思维涉及本能、自动且通常基于启发式的决策，而慢思维涉及深思熟虑、分析和努力的过程。

图片

LLM根据从训练数据中学习的模式快速生成响应，而没有内省或理解其输出背后的底层逻辑的能力。这意味着大语言模型缺乏深思熟虑、深入推理或像人类那样从单一经验中学习的能力。

虽然这些模型在文本生成任务取得了显著的进步，但快速思维的特性可能会限制它们在需要深度理解或灵活推理的任务上的潜力。

图片

最近模仿慢思维能力的方法，如提示链工程（见Auto-GPT）就显示了很有前景的结果。

大语言模型可以在多步骤过程中充当自己的鉴别器。这能显著改善它在不同情境下的推理能力,例如解决数学问题。

在此项研究中，研究者大量使用GPT-4来影响模拟中的智能体，以及生成南方公园剧集的场景。

由于大多数南方公园剧集的转录是GPT-4训练数据集的一部分，它已经对角色的个性、谈话风格以及节目的整体幽默感有很好的把握，无需再进行定制微调。

而我们通过多步创作过程来模拟慢思维。为此，我们使用不同的提示链来比较和评估不同场景的事件，以及它们如何推动整个故事朝着令人满意的、与IP一致的结果发展。

我们尝试通过提示链生成剧集，但故事生成是一个高度不连续的任务。这些是内容创作无法以渐进或连续的方式完成，而是需要一个「恍然大悟」的想法，来解决任务的进展上一个不连续的飞跃。

内容生成涉及发现或发明一种看待或构建问题的新方法。这可以启用剩余内容的生成。

不连续任务的例子有，需要开创性的观点或创造性应用公式的数学问题，撰写笑话或谜语，想出科学假说或哲学论点，或开拓出一种新的写作流派或风格。

扩散模型

Diffusion模型的运作原理是随着时间的推移，逐渐从数据中添加或去除随机噪声，以生成或重构输出。图像开始作为随机噪声，经过许多步骤后逐渐变换成一个连贯的图片，反之亦然。

图片

为了训练我们定制的Diffusion模型,我们收集了一个全面的数据集,包含来自动画剧《南方公园》约1200个角色和600个背景图像。这个数据集为模型学习该剧的风格提供了原始材料。

图片

为了训练这些模型，我们使用了Dream Booth。此训练阶段的结果是创建了两个专门的Diffusion模型。

第一个模型专门用于生成单个角色，角色将会站在可抠背景颜色前。这有助于提取生成的角色进行后续处理和动画,使我们能够无缝地将新生成的角色集成到各种场景和设置中。

图片

此外,角色的Diffusion模型允许用户通过Stable Diffusion的图片到图片过程，创建一个基于自己外观的南方公园角色，并作为平等参与的智能体加入模拟。

由于能够克隆自己的声音，可以轻松想象到一个基于用户外貌、书写风格和声音的完全实现的自主角色。

第二个模型经过训练可以生成干净的背景，而且能够特别聚焦于外部和内部环境。该模型提供了一个「舞台」，我们生成的角色可以在上面互动，从而可以创建各种潜在的场景和情景。

但需要注意的是，因为这些模型的产出是基于像素的性质，这些模型生成的图像在分辨率本质上是有限的。

为了克服这个限制，我们使用AI升级技术对生成的图像进行再处理，特别是R-ESRGAN-4x+-Anime6B，它可以优化和增强图像质量。

对于未来的2D交互作品，训练能生成基于矢量输出的定制Transformer模型将具有以下几个优势。

与基于像素的图像不同，矢量图形在调整大小或缩放时不会降低质量，因此可以提供无限分辨率的潜力。这将使我们能够生成无论以何种比例查看都能保持质量和细节的图像。

此外，基于矢量的形状已经分成单独的部分，解决了基于像素的具有透明度和分割的后处理问题。

这简化了生成资产集成到过程化世界的构建，以及动画系统中的复杂性。

剧集生成

我们将一集定义为在特定地点进行的一系列对话场景，一集南方公园的播放时间总共是22分钟。

为了生成一个完整的南方公园剧集，我们通常以标题、概要和我们希望在模拟虚拟世界的1周内（=大约3小时的播放时间）发生的主要事件的形式，向故事系统提供一个高层次的想法。

基于此，故事系统会自动使用模拟数据作为提示链的一部分，推断出多达14个场景。

图片

Showrunner系统负责为每个场景选派角色，以及故事应该如何通过情节模式进行。

每个场景都与一个情节字母（例如A，B，C）相关联，然后由Showrunner在一个剧集的过程中交替不同的角色组，并跟随他们的各自故事线，以保持用户的参与度。

最后，每个场景只定义了地点、角色和对话。在舞台系统和AI摄像系统进行初始设置后，根据情节模式（例如ABABC）回放场景。

每个角色的声音都已经提前克隆，并且每一条新的对话线都会即时生成语音剪辑。

图片

模拟创造性思维

如前所述，模拟产生的数据，既为撰写初始提示的用户，也为与LLM进行提示链交互的生成故事系统，提供了创新的燃料。

提示链是一种技术，它通过向语言模型提供一系列相关的提示，来模拟持续的思维过程。有时，它可以在每一步中扮演不同的角色，对前一个提示和生成的结果进行判别。

在这个例子中，我们会模仿一个非连续的创造性思维过程。

例如，要创建14个不同的《南方公园》场景，可以先提供一个概括性的提示，勾勒出总体叙事，然后再提供具体的提示，详细说明和评估每个场景的演员、地点和关键情节。

图片

这就模仿了人类头脑风暴的过程，即通过多个往往是不连续的步骤，对创意进行构建和完善。

通过利用LLM的生成能力和提示链提供的迭代完善功能，我们可以有效地构建出动态、详细和引人入胜的叙事。

此外，我们探索了新的概念，如情节模式和戏剧操作符（DrOps），从而增强整个剧集的结构，同时也增强了每个场景之间的连贯性。

反转、预示、悬念等修辞手法，很难作为提示链的一部分进行评估。没有写作背景的用户在判断这些修辞手法的有效性和适当的位置上，也会有同样的困难。

为此，研究者提出了一种程序化的方法，将这些特定于节目的模式和修辞手法作为情节模式和DrOps，程序化地注入到提示链中。这些模式和DrOps可以在行为结构、场景结构和单个对话的层面上操作。

他们正在研究未来的机会，以提取针对每个IP和格式的戏剧指纹，并利用这些数据来训练定制的SHOW-1模型。

这个数据集与人类的整体反馈相结合，可以在用户和指定的IP之间进一步对齐语调、风格和娱乐价值，同时提供一个高度自适应和互动的故事系统，作为正在进行的模拟的一部分。

图片

谁在推动这个故事？

在这个方法中，故事生成过程是项目、用户和GPT-4共同负责的。

每个参与者各自的优缺点，这取决于我们希望他们在整个故事中扮演怎样的角色。他们的角色是独特的，他们的贡献可以有不同的权重。

The Simulation通常提供基础的IP-based上下文、角色历史、情绪、事件和地点，为初始的创新过程提供种子。

图片

而用户引入自己的意向性，对智能体施加行为控制，并提供启动生成过程的初始提示。用户也充当最后的鉴别器，在过程结束时评估生成的故事内容。

另一方面，GPT-4则充当主要的生成引擎，根据它从用户和Simulation那里收到的提示创建和推断场景和对话。

这是一个共生的过程，每个参与者的优点都有助于构建一个连贯、吸引人的故事。

重要的是，我们的多步骤方法，以提示链的形式，也提供了检查和平衡，减轻了不希望的随机性的可能性，并允许与IP故事世界更一致的对齐。