是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy 精华

发布于 2024-12-30 10:24
浏览
0收藏

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

文章链接:https://arxiv.org/abs/2406.03520
项目链接:https://github.com/Hritikbansal/videophy

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

总结速览

解决的问题
随着互联网规模的视频数据预训练的进展,文本生成视频(T2V)模型能够生成高质量的视频,涵盖各种视觉概念、合成逼真的动作以及渲染复杂的物体。然而,目前的T2V模型在生成的视频中缺乏物理常识,尤其是在模拟真实世界活动时,无法准确遵循物理法则。尽管已有一些评估视频质量的方法(如VBench),但这些方法并未特别关注生成视频的物理合法性。

提出的方案
VIDEOPHY,一个用于评估生成视频是否遵循物理常识的基准。VIDEOPHY基于人类的直观物理理解(如水倒入杯中,水位会上升)来判断生成的视频是否符合物理法则。该数据集包含了688个经过人工验证的高质量提示,涵盖了不同物质状态之间的互动(如固体-固体、固体-液体、液体-液体)。通过这些提示,从12个不同的T2V模型中生成视频,并对其进行人类评估,评估标准包括语义符合性(视频是否遵循文本提示)和物理常识(视频是否遵循物理法则)。

应用的技术

  • 大语言模型:用于生成描述不同物质状态之间互动的候选提示。
  • 物理仿真:用于标注生成的提示在物理仿真中呈现的复杂性。
  • VIDEOCON-PHYSICS:一种用于评估生成视频的自动化工具,能够通过用户查询来评估视频的语义符合性和物理常识。

达到的效果

  • 基准测试:VIDEOPHY基准测试揭示,当前的T2V生成模型(如CogVideoX-5B)在遵循文本和物理法则方面表现较差,最佳模型仅在39.6%的实例中生成符合要求的视频。
  • 模型表现分析:通过详细的定性分析,发现现有模型在生成需要固体-固体交互(如球弹跳或锤击钉子)的视频时尤其困难。模型往往难以准确识别物体并理解其材质属性,这是生成物理合理动态的关键。
  • 自动化评估工具:VIDEOCON-PHYSICS能有效评估生成视频的语义符合性和物理常识,且在未见过的提示上表现优异,较现有评估工具提高了9个点的语义符合性和15个点的物理常识评估。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

VIDEOPHY 数据集

数据集VIDEOPHY旨在为视频生成模型中的物理常识提供一个可靠的评估基准。该数据集根据以下指南进行策划:

  • 涵盖广泛的日常活动和物体(例如,滚动物体、向杯中倒液体);
  • 不同物质类型之间的物理交互(例如,固体-固体或固体-液体交互);
  • 在图形仿真下渲染物体和动作的感知复杂性。

例如,番茄酱遵循非牛顿流体动力学,比水(遵循牛顿流体动力学)更难用传统流体仿真器建模和仿真。在收集指南下,制定了一份文本提示列表,将用于为文本到视频生成模型提供条件。遵循下面三阶段流程来创建数据集。

LLM 生成的提示(阶段 1)
在这里,查询一个大型语言模型,在案例中是 GPT-4,生成一千个候选提示,描述现实世界的动态。由于大多数现实世界的动态涉及固体或流体,将这些动态大致分类为三类:固体-固体交互、固体-液体交互和液体-液体交互。具体而言,考虑流体动力学中无粘性流体和粘性流体的情况,代表性例子分别为水和蜂蜜。


另一方面,发现固体表现出更多样化的本构模型,包括但不限于刚体、弹性材料、沙子、金属和雪。总的来说,GPT-4 生成 500 个关于固体-固体和固体-液体交互的候选提示,以及 200 个关于液体-液体交互的候选提示。

人工验证(阶段 2)
由于大语言模型生成的提示可能不符合我们的输入查询,进行人工验证步骤,以过滤掉不合格的生成。作者进行人工验证,确保提示的质量和相关性,遵循以下标准:

(1)提示必须清晰且易于理解;
(2)提示应避免过度复杂性,例如物体过于多样或动态过于复杂;
(3)提示必须准确反映预期的交互类别(例如,固体-液体或液体-液体动态中提到的流体)。


最终,有 688 个经过验证的提示,其中289个是关于固体-固体交互,291个是关于固体-液体交互,108个是关于液体-液体交互。提示涵盖了广泛的物质类型和物理交互,这些在现实生活和图形学领域中都很常见。物质类型包括简单的刚体、可变形体、薄壳、金属、断裂、奶油、沙子等。接触处理也很丰富,因为它基于上述所有材料的交互。数据质量对于评估基础模型至关重要。例如,Winoground(400个示例)、Visit-Bench(500个示例)、LLaVA-Bench(90个示例)和Vibe-Eval(269个示例)因其高质量而广泛用于评估视觉-语言模型,尽管其规模有限。鉴于人工验证需要大量专家时间且在预算内不可扩展,优先考虑数据质量,以评估 T2V 模型。

困难度注释(阶段 3)
为了深入了解视频生成的质量,进一步为数据集中的每个实例注释了感知的困难度。请两位经验丰富的图形学研究人员(物理仿真领域的高级博士生)独立地根据他们对使用最先进物理引擎模拟提示中物体和动作的复杂性的感知,将每个提示分类为简单(0)或困难(1)。


随后,对于不到 5% 的实例,研究人员讨论并达成一致判断。仿真的困难度主要受到模型复杂性的影响,而模型复杂性根据材料的类型而有所不同。例如,可变形体比刚体更具建模挑战,因为它们在外力作用下会改变形状,从而导致更复杂的偏微分方程(PDE)。相比之下,刚体保持其形状,从而生成更简单的模型。另一个关键因素是求解这些方程的数值难度,尤其是当 PDE 中涉及高阶项时,材料的速度会增加求解难度。因此,移动较慢的材料通常比移动较快的材料更容易进行仿真。我们注意到,困难度的评估是基于每个类别(例如,固体-固体、固体-液体、液体-液体),并不能跨类别进行比较。下表 1 中展示了生成提示的示例。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

数据分析
细粒度的元数据有助于全面理解基准数据集。下表 2 中呈现了 VIDEOPHY 数据集的主要统计信息。值得注意的是,使用多种生成模型为数据集中的提示生成了 11330 个视频。此外,平均提示长度为 8.5 个词,表明大多数提示都是直接的,并且不会通过复杂的措辞使分析变得过于具有挑战性。数据集包括 138 个在提示中定义的独特动作。下图 3 可视化了 VIDEOPHY 提示中使用的根动词和直接名词,突出显示了动作和实体的多样性。因此,本文的数据集涵盖了广泛的视觉概念和动作。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

评估

评估指标

尽管人类可以在多个视觉维度上评估视频,但主要关注模型对提供的文本的遵循程度和物理常识的融合。这些是条件生成模型必须最大化的关键目标。多个视频特征,如物体运动、视频质量、文本遵循、物理常识、主体与物体的时间一致性等,通常是相互交织的。人类做决策时,很难分解这些因素的影响。然而,逐一聚焦每个方面可以提供模型在特定维度上的全面表现。

在本研究中,重点关注物理常识和语义遵循。此外,获取人类判断的方式有多种,例如密集反馈和稀疏反馈。密集反馈虽然提供了关于模型错误的详细信息,但它很难获取且可能存在校准不准的问题。考虑到二元判断的简单性及其在文本到图像生成模型中的广泛应用],本文采用二元反馈(0/1)来评估生成的视频。本文实验将展示,二元反馈能够有效地突出模型在不同物体交互和任务复杂度层级中的质量差异。

语义遵循(SA)
该指标评估文本提示是否在生成的视频帧中语义对齐,测量视频与文本的对齐程度。具体来说,它评估视频中的动作、事件、实体及其关系是否被正确表现(例如,提示“水倒入玻璃杯”对应的生成视频中,水流入玻璃杯)。在本研究中,我们对生成的视频进行语义遵循注释,表示为 SA = {0, 1}。其中,SA = 1 表示文本提示在生成的视频中有语义基础。

物理常识(PC)
该指标评估所描述的动作和物体状态是否遵循现实世界中的物理定律。例如,水流入玻璃杯中时,水位应该上升,遵循质量守恒定律。在本研究中,我们对生成的视频进行物理常识注释,表示为 PC = {0, 1}。其中,PC = 1 表示生成的运动和交互与人类通过经验获得的直观物理相一致。由于物理常识完全基于视频,因此它独立于生成视频的语义遵循能力。研究中计算了生成的视频中,语义遵循较高(SA = 1)、物理常识较高(PC = 1)以及这两个指标联合表现较高(SA = 1, PC = 1)的比例。

人类评估

本文进行了人类评估,以评估生成视频在语义遵循和物理常识方面的表现,使用的是我们的数据集。注释由一组合格的亚马逊机械土耳其工人(AMT)完成,这些工人通过共享的 Slack 渠道提供了详细的任务说明(及相关澄清)。

随后,从中选择了 14 名学习过高中物理的工人,在通过资格测试后进行注释。在此任务中,注释员将看到一个提示和相应的生成视频,但没有关于生成模型的信息。要求他们为每个实例提供语义遵循评分(0 或 1)和物理常识评分(0 或 1)。注释员被指示将语义遵循和物理常识视为独立的指标,并在开始主任务之前由作者展示了一些已解决的示例。

在某些情况下,发现生成模型创建了静态场景而非具有较高运动的视频帧。在这种情况下,要求注释员判断静态场景在现实世界中的物理合理性(例如,一块折叠的砖块静止不动并不符合物理常识)。如果静态场景存在噪点(例如,杂乱的颗粒状或斑点状图案),我们指示他们将其视为较差的物理常识。

人类注释员没有被要求列出违反物理法则的具体内容,因为这会使注释过程变得更加耗时和昂贵。此外,当前的注释可以由具有现实世界经验的注释员完成(例如,工人知道水是从水龙头流下来的,木材在水面漂浮时形状不会改变),而不需要高级的物理教育。

自动评估

尽管人类评估对于基准测试来说更加准确,但在大规模获取时既费时又昂贵。此外,希望资源有限的模型开发者能够使用我们的基准。因此,设计了 VIDEOCON-PHYSICS,一个可靠的自动评分器,用于评估数据集。使用 VIDEOCON,一个拥有 7B 参数的开放式视频-文本语言模型,经过在真实视频上的训练,能够进行稳健的语义遵循评估[3]。通过多模态模板来提示 VIDEOCON 生成一个文本响应(是/否)。

由于 VIDEOCON 没有针对生成视频分布进行训练,也没有能力判断物理常识,因此我们不期望它在我们的设置中能以零样本方式表现良好。为此,提出了 VIDEOCON-PHYSICS,一个开源生成视频-文本模型,能够评估生成视频的语义遵循和物理常识。通过结合在人类注释中获得的语义遵循和物理常识任务的标注,对 VIDEOCON 进行了微调。通过计算人类注释和模型判断之间的 ROC-AUC,来评估自动评分器的有效性,特别是在从测试提示生成的视频中。

设置

视频生成模型
在 VIDEOPHY 数据集上评估了十二种不同的封闭式和开放式文本到视频(T2V)生成模型。模型列表包括 ZeroScopeLaVIEVideoCrafter2OpenSoraCogVideoX-2B 和 5B 、StableVideoDiffusion (SVD)-T2I2VGen-2 (Runway)、Lumiere-T2VLumiere-T2I2V (Google)、Dream Machine (Luma AI) 和 Pika

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

数据集设置
如前所述,本文训练了 VIDEOCON-PHYSICS,以便对生成的视频进行更便宜且可扩展的测试。为此,将 VIDEOPHY 数据集中的提示分为训练集和测试集两部分。利用测试集中 344 个提示生成的视频上的人类注释进行基准测试,而用于训练自动评估模型的则是训练集中 344 个提示生成的视频上的人类注释。确保训练集和测试集中的物质状态(固-固、固-流体、流体-流体)和复杂性(简单、困难)分布相似。

基准测试
在此步骤中,为每个测试提示使用我们的测试平台生成一个视频,随后让三名人类注释员判断生成视频的语义遵循和物理常识。在实验中,报告来自人类注释员的多数投票结果。在语义遵循和物理常识判断上,注释员之间的协议分别为 75% 和 70%。这表明,人类注释员认为物理常识的判断任务比语义遵循更具主观性。在测试提示和 T2V 模型上,共收集了 24,500 条人类注释。

VIDEOCON-PHYSICS 的训练集
在此步骤中,为九个 T2V 模型从训练提示中每个选择两个视频进行采样。选择两个视频是为了获得更多的数据实例用于训练自动评估模型。随后,要求一名人类注释员判断生成视频的语义遵循和物理常识。共收集了 12,000 条人类注释,其中一半用于语义遵循,另一半用于物理常识。通过微调 VIDEOCON,使其最大化在多模态模板条件下的 Yes/No 对数似然,来进行语义遵循和物理常识任务。没有为每个视频收集三条注释,因为这在经济上非常昂贵。总的来说,在基准测试和训练中共花费了 3500 美元用于收集人类注释。

结果

本节展示了 T2V 生成模型的实验结果,并验证了 VIDEOCON-PHYSICS 作为自动评估工具在 VIDEOPHY 数据集上的有效性。

在 VIDEOPHY 数据集上的表现

使用人类评估在 VIDEOPHY 数据集上对 T2V 生成模型的表现进行了比较,结果如下表 3 所示。发现 CogVideoX-5B 在 39.6% 的情况下生成的 视频既符合文本描述,又遵循物理法则(SA = 1, PC = 1)。CogVideoX 的成功可以归因于其高质量的数据筛选,包括详细的文本描述和过滤掉运动少或质量差的视频。此外,我们发现其余的视频模型的得分都低于 20%。这表明现有的视频模型严重缺乏生成符合直觉物理的视频的能力,也证明了 VIDEOPHY 是一个具有挑战性的数据集。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

更具体地说,CogVideoX-5B 在生成符合物理常识的视频方面表现突出,达到 53%的得分,而 CogVideoX-2B 则以 34.1%的得分位列第二。此外,这也表明,扩展网络容量能够提高其捕捉互联网规模视频数据中的物理约束的能力。我们还发现,OpenSora 在 VIDEOPHY 数据集上的表现最差,这表明社区在改进 Sora 的开源实现方面具有很大的潜力。在封闭式模型中,Pika 生成的视频在语义遵循和物理常识的判断上分别达到了 19.7% 的正面评分。有趣的是,我们观察到 Dream Machine 在语义遵循上取得了较高的得分(61.9%),但在物理常识上得分较低(21.8%),这突出了优化语义遵循并不一定能带来良好的物理常识。

物质状态的变化
本文研究了 T2V 模型在表现上与物质状态(例如固态-固态)的交互变化,结果见下表 5。有趣的是,发现所有现有的 T2V 模型在描述固体材料之间的交互时表现最差(例如,瓶子从桌子上掉落),表现最好的模型 CogVideoX-5B 仅在 24.4%的情况下实现了准确的语义遵循和物理常识。此外,我们观察到 Pika 在描述流体与流体之间交互的标题(例如,雨水溅到池塘上)中表现最好。这表明 T2V 模型的表现受场景中所涉及物质状态的巨大影响,强调了模型开发者可以专注于提升固体-固体交互的语义遵循和物理常识。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

复杂度的变化
如下表 6所示,研究者们分析了视频模型在根据物理模拟渲染物体或合成交互时复杂度变化的表现。随着标题复杂度的增加,所有视频模型在语义遵循和物理常识上的表现都有所下降。这表明,物理上更难模拟的标题,在通过条件控制视频生成模型时也更难实现。因此强调,未来的 T2V 模型开发应该聚焦于减少 VIDEOPHY 数据集中简单与困难标题之间的差距。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

相关性分析
为了理解各种性能指标之间的关系,考察了语义遵循(SA)和物理常识(PC)与视频质量和运动之间的相关性。实证结果表明,视频质量与 PC 和 SA 之间存在正相关,而运动与 PC 和 SA 之间存在负相关。这表明,视频模型在描绘更多运动时,往往会在 SA 和 PC 上犯更多错误。封闭式模型(如 Dream Machine/Pika)对视频质量的贡献较高,而开放式模型(如 ZeroScope/OpenSora)则对较低质量的视频贡献较多。虽然较高的视频质量与更好的物理常识呈“相关”关系,但注意到,模型在我们基准测试中的绝对表现仍然非常差。

定性分析

CogVideoX-5B 与其他模型的对比
分析了一些定性示例,以了解 CogVideoX-5B 这一表现最佳的模型与我们测试组中其他模型之间的差距。SVD-T2I2V 在涉及动态流体场景时表现不佳。Lumiere-T2I2V 和 Dream Machine (Luma) 在视觉质量上优于 Lumiere-T2V,但它们缺乏对刚性几何体的深刻理解(例如,在下图 4(b) 中)。此外, Gen-2 有时会生成静止的物体漂浮在空中,伴随缓慢的相机运动,而不是产生有意义的物理动态(例如,在图 4(c) 中)。相比之下,CogVideoX-5B 在识别不同物体方面表现得相当不错,其生成结果中的变形很少会导致多个物体混合在一起。进一步来看,它倾向于使用更简单的背景,避免使用复杂的图案,因为复杂的图案中较容易发现缺陷。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

尽管如此,甚至是表现最佳的模型 CogVideoX-5B 也可能难以理解基础物体的材质属性,导致不自然或不一致的变形,如下图 5 所示。这种现象也出现在其他视频生成模型的结果中。我们的分析突出了缺乏细粒度的物理常识,这也是未来研究应当关注的一个问题。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

失败模式分析
展示了一些定性示例,以理解生成视频中常见的物理常识失败模式。来自各种 T2V 生成模型的定性示例可见下图。常见的失败模式包括:

(a) 质量守恒违例:物体的体积或纹理随时间变化不一致。

(b) 牛顿第一定律违例:物体在平衡状态下改变速度,而没有外部力的作用。

(c) 牛顿第二定律违例:物体违反动量守恒。

(d) 固体本构定律违例:固体以与其材质属性相悖的方式变形,例如刚性物体随时间变形。

(e) 流体本构定律违例:流体表现出不自然的流动动作。

(f) 非物理性穿透:物体不自然地相互穿透。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

VIDEOCON-PHYSICS:VIDEOPHY 数据集的自动评估器

为了实现生成视频在语义一致性和物理常识方面的可扩展和可靠评估,为数据集补充了 VIDEOCON-PHYSICS,一种自动评分器。

VIDEOCON-PHYSICS 对未见过的提示具有泛化能力。
下表 4 中比较了不同自动评估器与人工预测的 ROC-AUC 结果,评估的是测试提示生成的视频。这里的生成视频来自于用于训练 VIDEOCON-PHYSICS 模型的模型。我们发现,VIDEOCON-PHYSICS 在语义一致性和物理常识判断上分别比零-shot 的 VIDEOCON 提高了 17 分和 19 分。这表明,通过结合生成视频分布和人工标注进行微调,能够有效提升模型在未见过提示上的评估能力。

是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy-AI.x社区

VIDEOCON-PHYSICS 在语义一致性方面的判断一致性高于物理常识。这表明,判断物理常识比判断语义一致性更具挑战性。令人感兴趣的是,GPT-4-Vision 在数据集上,对于语义一致性和物理常识的评判几乎是随机的。这意味着,对于 GPT-4-Vision 来说,在零-shot 设置下,从多图像推理能力获得准确评估是非常困难的。


为了应对这一挑战,测试了 Gemini-Pro-Vision-1.5,发现它在语义一致性评估上取得了不错的分数(73 分),但在物理常识评估上接近随机(54 分)。这表明,现有的多模态基础模型缺乏判断物理常识的能力。

VIDEOCON-PHYSICS 对未见过的生成模型具有泛化能力
为了评估 VIDEOCON-PHYSICS 在未见过的视频分布上的性能,训练了一个经过简化版本的 VIDEOCON-PHYSICS,该版本基于一组受限的视频数据。具体来说,我们将 VIDEOCON-PHYSICS 训练在从 VideoCrafter2ZeroScopeLaVIEOpenSoraSVD-T2I2V 和 Gen-2 获取的人工标注数据上,并使用测试集中的其他 T2V 模型生成的视频进行评估。


VIDEOCON-PHYSICS 在语义一致性和物理常识判断上分别比 VIDEOCON 提高了 15 分。这表明,随着新的 T2V 生成模型的发布,VIDEOCON-PHYSICS 可以有效评估其语义一致性和物理常识。

自动排行榜可靠地跟踪人工排行榜
通过对开放模型和封闭模型的语义一致性和物理常识分数进行平均,创建了一个自动排行榜。随后,我们将这些排名与人工排行榜对齐,基于联合性能指标(SA = 1,PC = 1)。

在自动排行榜中的模型相对排名(CogVideoX-5B > VideoCrafter2 > LaVIE > CogVideoX-2B > SVD-T2I2V > ZeroScope > OpenSora)与人工排行榜中的模型相对排名(CogVideoX-5B > VideoCrafter2 > CogVideoX-2B > LaVIE > SVD-T2I2V > ZeroScope > OpenSora)高度一致。在封闭模型中也观察到了类似的趋势。然而, Pika 在自动排行榜中的分数相对较低,这是一个可以通过获取更多数据来改善的局限性。总体而言,大多数模型在两个排行榜中的排名相似,证明了其在未来模型开发中的可靠性。

微调视频模型
虽然 VIDEOPHY 数据集用于模型评估和构建自动评估器,但还评估了该数据集是否可以用于微调视频模型。在微调后,观察到语义一致性显著下降,而物理常识保持不变。这可能是由于训练样本的限制、优化挑战以及视频微调领域尚处于初期阶段。未来的研究将专注于基于这些发现增强生成模型中的物理常识。

结论

VIDEOPHY,这是首个用于评估生成视频中物理常识的数据集。通过对多种视频模型(包括开源和闭源模型)的全面评估,发现这些模型在物理常识和语义一致性方面存在显著不足。本文的数据集揭示了现有方法远未成为通用的世界模拟器。此外,本文还提出了VIDEOCON-PHYSICS,一个自动化评估模型,能够在我们的数据集上进行高效且可扩展的评估。本文的工作将为视频生成建模中的物理常识研究奠定基础。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/8BiUCFzsVTsEFFyM8wszRQ​

已于2024-12-30 11:20:17修改
收藏
回复
举报
回复
相关推荐