视频生成模型变身智能体：斯坦福Percy Liang等提出VideoAgent，竟能自我优化

作者：机器之心 2024-10-21 12:40:00

文本生视频模型的这些近期应用既有望实现互联网规模级别的知识迁移（比如从生成人类视频到生成机器人视频），也有望打通实现通用智能体的道路（比如用单个策略控制不同环境中不同形态的机器人来执行多种多样的任务）。

现在正是「文本生视频」赛道百花齐放的时代，而且其应用场景非常多，比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器，比如 OpenAI 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告，参阅机器之心报道《我在模拟世界！OpenAI 刚刚公布 Sora 技术细节：是数据驱动物理引擎》。

然而，现实情况是，文本生视频模型的下游应用还很有限，原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。

虽然理论上可以通过扩大数据集和模型大小来有效减轻这些问题，但对视频生成模型来说，这会很困难。

部分原因是标注和整理视频的人力成本很高。另外，视频生成方面还没有一个非常适合大规模扩展的架构。

除了扩大规模，LLM 领域的另一个重要突破是能整合外部反馈来提升生成质量。那文本生视频模型也能受益于这一思路吗？

为了解答这一问题，一个多所机构的研究团队探索了视频生成模型能自然获得的两种反馈类型，即来自视觉 - 语言模型（VLM）的 AI 反馈和将生成的视频转换成运动控制时得到的真实世界执行反馈。

为了利用这些反馈来实现视频生成模型的自我提升，该团队提出了 VideoAgent，即视频智能体。该研究有三位共一作者：Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他参与者包括滑铁卢大学 Sebastian Fischmeister 教授、斯坦福大学基础模型研究中心（CRFM）主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang（杨梦娇）。

论文标题：VideoAgent: Self-Improving Video Generation
论文地址：https://arxiv.org/pdf/2410.10076
代码地址：https://github.com/Video-as-Agent/VideoAgent

不同于将生成的视频直接转换成运动控制的策略，VideoAgent 的训练目标是使用来自预训练 VLM 的反馈来迭代式地优化生成的视频规划。

在推理阶段，VideoAgent 会查询 VLM 以选择最佳的改进版视频规划，然后在环境中执行该规划。

在在线执行过程中，VideoAgent 会观察任务是否已成功完成，并根据来自环境的执行反馈和从环境收集的其它数据进一步改进视频生成模型。

生成的视频规划获得了两方面的改进：

该团队受一致性模型的启发，提出了用于视频扩散模型的自我调节一致性（self-conditioning consistency），其可将来自视频扩散模型的低质量样本进一步优化成高质量样本。
当可在线访问环境时，VideoAgent 会执行当前视频策略并收集其它成功轨迹，以进一步在成功轨迹上微调视频生成模型。

图 1 是 VideoAgent 的直观图示。