SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) 原创

发布于 2024-7-4 07:51
浏览
0收藏

摘要:基于强大的大语言模型(LLMs),最近的生成型多模态大语言模型(MLLMs)作为一个重要的研究领域,展示了在理解和生成方面的显著能力。在这项工作中,我们引入了一个名为SEED-Bench的基准测试,以评估MLLMs的生成理解能力,作为对生成模型进行全面评估的初步步骤。SEED-Bench包含19,000道多项选择题,配有精确的人类标注(是现有基准的6倍),涵盖了包括图像和视频模态理解在内的12个评估维度。我们开发了一个先进的流程,用于生成针对特定评估维度的多项选择题,集成了自动过滤和人工验证过程。由人类注释得出的具有真实选项的多项选择题,使得模型性能的评估能够客观且高效,无需在评估过程中进行人工或GPT干预。我们进一步评估了18个模型在所有12个维度上的表现,涵盖了空间和时间理解。通过评估结果揭示现有MLLMs的局限性,我们希望SEED-Bench能为未来的研究提供启示。我们将推出并持续维护一个排行榜,为社区提供一个评估和研究模型能力的平台。

1.引言

近年来,大语言模型(LLMs)在各种开放性任务中展示了卓越的理解、推理和生成文本的能力。利用LLMs的强大通用性,生成型多模态大语言模型(MLLMs)在多模态理解和生成方面展示了增强的能力。然而,目前的MLLMs主要通过有限数量的定性示例或使用不适合评估开放形式输出的现有基准来评估其性能。例如,在VQAv2中,只有当模型的输出与标准答案完全匹配时,答案才被视为正确,而标准答案通常只有一两个词。缺乏一个全面客观的基准来评估MLLMs,这对比较和研究各种模型的性能构成了重大挑战。

并行研究工作已经做出努力,开发专门评估MLLMs的基准,如表1所示。例如,LVLM-eHub和LAMM利用各种计算机视觉任务的现有公共数据集作为评估样本,并使用人类注释者或GPT来评估模型预测的质量、相关性和实用性。然而,在评估过程中涉及人类和GPT不仅降低了效率,还导致了评估的主观性增加和准确性降低。MME和MMBench通过构建判断题或选择题进一步推进了MLLMs的客观评估,涵盖了各种能力维度。将模型的输出限制在判断题或A/B/C/D选项上,方便了准确率的计算,作为评估的客观指标。然而,这些基准相对较小的规模(少于3K样本)引入了评估统计的不稳定性。

表1:现有多模态大语言模型基准的比较。“H/G 评估”表示评估过程中是否使用人类或GPT。

SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

图1:左图:SEED-Bench中12个评估维度的概述,包括空间和时间理解,柱状图中的数字表示每个维度中人类标注的多项选择题的数量。右图:显示18个模型在12个评估维度上的平均准确率的整体排行榜。

在这项工作中,我们专注于评估MLLMs的生成理解能力,作为对生成模型进行全面评估的初步步骤,引入了一个名为SEED-Bench的基准测试。SEED-Bench涵盖了图像和视频模态的12个评估维度。SEED-Bench包含19,000道多项选择题,标准答案由人类注释得出(是MME的9倍,MMBench的6倍)。我们设计了一个复杂的流程,用于生成针对特定评估维度的多项选择题,并进一步结合自动过滤机制和人工验证过程,以确保问题的质量和标准答案的准确性。

具体来说,对于图像,我们利用各种基础模型提取其视觉信息,包括图像级别的描述、实例级别的描述和文本元素。对于视频,我们利用原始人类注释提供视觉信息。然后我们将视觉信息输入ChatGPT/GPT-4,通过专门设计的提示生成针对特定评估维度的问题以及四个候选选项和一个标准答案。我们进一步利用多个LLMs过滤掉可以在没有视觉输入的情况下回答的问题。最后,我们雇佣人类注释者选择每个多项选择题的正确选项,并将每个问题分类到一个评估维度中,最终得到一个包含19,000道多项选择题的清晰且高质量的基准测试。我们的流程支持跨多个领域扩展评估数据,并将继续扩展基准测试以增加更多评估维度。

基于SEED-Bench,我们全面评估了包括LLMs、ImageLLMs和VideoLLMs在内的18个模型在所有12个维度上的表现。不同于MMBench使用ChatGPT将模型的预测与多项选择题中的选项匹配(仅实现了87.0%的匹配率),我们遵循GPT-3的方法计算每个候选选项的对数似然值,并选择最高值作为最终预测,而不依赖模型的指令遵循能力输出“A”或“B”或“C”或“D”。通过分析12个维度的结果,我们对现有多模态模型在空间和时间理解能力进行了全面比较。我们观察到大多数MLLMs在所有12个评估维度上仍表现有限,并惊讶地发现VideoLLMs在时间理解方面未能实现与ImageLLMs相竞争的表现。通过评估结果,我们希望SEED-Bench能够为未来探索更高级的MLLMs提供启示。我们将推出一个评估平台并持续维护一个排行榜,用于评估和比较模型性能。

2.相关工作

多模态大语言模型

随着大语言模型(LLM)的显著成功,最近的研究致力于生成型多模态大语言模型(MLLMs),通过利用LLMs的强大通用性来提高多模态理解和生成能力。一些工作进一步考虑视频输入,并利用LLMs的巨大能力来进行视频理解任务。在SEED-Bench中,我们提供了对这些模型的全面定量评估,以彻底评估和比较它们在生成理解方面的表现。

多模态大语言模型的基准测试

随着多模态大语言模型(MLLMs)的快速发展,一些并行工作提出了各种评估MLLMs的基准。例如,GVT通过汇总两个语义级理解任务(VQA和图像描述)和两个细粒度任务(对象计数和多类识别)来构建基准,但其评估仅限于视觉理解的有限方面。LVLM-eHub结合多个现有的计算机视觉基准,并开发了一个在线平台,在该平台上两个模型被提示回答与图像相关的问题,并雇用人类注释者比较模型的预测。评估过程中涉及人类注释者不仅引入了偏见,还带来了显著的成本。LAMM通过使用实体提取从开放形式的预测中获取关键答案,并利用GPT评估答案与标准答案的相关性和准确性,来评估图像和点云任务。依赖实体提取和GPT指标可能影响评估的准确性和可靠性。MME和MMBench分别通过构建2914道判断题和2974道多项选择题,旨在增强MLLMs的客观评估。考虑到这些基准相对较小的规模,其评估结果可能表现出不稳定性。在这项工作中,我们引入了SEED-Bench,以提供对MLLMs的客观和全面的评估,其中包含19K道多项选择题,涵盖了包括空间和时间理解在内的12个评估维度。

3. SEED-Bench

我们的基准包含19K道多项选择题,带有精确的人类注释,涵盖了包括空间和时间理解在内的12个评估维度。在本节中,我们首先在3.1节中介绍SEED-Bench的评估维度。在3.2节中介绍数据来源,并在3.3节中介绍构建多项选择题的流程。最后,我们在3.4节描述了MLLMs回答多项选择题的评估策略。

3.1 评估维度

为了全面评估MLLMs的视觉理解能力,SEED-Bench包括12个评估维度,涵盖空间和时间理解,如表2所示。


SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

图2:SEED-Bench的数据样本,涵盖包括空间和时间理解在内的12个评估维度。每个评估维度包含由人类注释得出的多项选择题及其标准选项。

表2:SEED-Bench的评估维度,包括空间和时间理解。我们省略了示例问题中的图像。


SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

空间理解

在空间理解评估中,我们考虑了9个维度,涵盖了图像级和实例级的感知和推理。

- 场景理解:该维度关注图像中的全局信息。通过整体理解图像来回答问题。

- 实例身份:该维度涉及图像中某个实例的识别,包括某个对象的存在或类别。评估模型的对象识别能力。

- 实例属性:该维度与实例的属性有关,如颜色、形状或材质。评估模型对对象视觉外观的理解。

- 实例位置:该维度关注某个指定实例的绝对位置。要求模型正确定位问题中提到的对象。

- 实例计数:该维度要求模型计算图像中特定对象的数量。这需要模型理解所有对象,并成功计算所指对象的实例数量。

- 空间关系:该维度要求模型识别图像中两个提到的对象之间的相对空间关系。

- 实例互动:该维度要求模型识别两个对象或人之间的状态关系或互动关系。

- 视觉推理:该维度评估模型是否能够基于视觉信息进行推理。这需要模型充分理解图像并利用其常识知识来正确回答问题。

- 文本理解:在这个维度中,模型应回答有关图像中文本元素的问题。

时间理解

在时间理解评估中,我们考虑了3个维度,侧重于动作的识别、预测和过程理解。

- 动作识别:在该维度中,模型需要识别视频中展示的动作。评估的不仅是捕捉时间动态的能力,还包括对物理动作、人类动作和对象之间动态互动的知识。

- 动作预测:该维度的目标是通过视频前段预测未来的动作,这需要理解视频的上下文信息和时间推理。

- 过程理解:该维度要求模型捕捉所有关键动作并对它们进行时间排序。我们旨在评估模型的时间细粒度理解和过程推理能力。

3.2 数据来源

为了创建一个涵盖各种评估维度的基准,我们需要收集包含丰富视觉信息的图像和具有丰富时间动态的视频,以便构建多样且具有挑战性的多项选择题。在SEED-Bench中,我们使用经过过滤的CC3M数据集来构建空间理解问题。具体来说,考虑到CC3M原始描述的噪音,我们使用Tag2Text为每张图像生成描述。我们过滤掉描述中名词不超过5个的图像,以确保剩余图像的信息丰富性,以便构建问题。

我们进一步采用Something-Something-v2(SSV2)、Epic-kitchen 100和Breakfast数据集来构建时间理解问题。SSV2是一个动作识别数据集,包括174个基本动作的细粒度类别,我们从其验证集中采用了1740个视频。我们还选择了Epic-kitchen 100数据集中有时间注释动作标签的138个长视频。此外,Breakfast数据集中的视频和细粒度动作分割注释用于过程理解任务。

3.3 多项选择题

如图3所示,我们生成多项选择题的流程包括问题/答案生成和验证。为了生成问题/答案对,我们首先利用各种基础模型提取视觉信息,包括图像级描述、实例级描述和文本元素。基于与特定评估维度相对应的专门设计的提示,ChatGPT/GPT-4随后生成问题和四个候选选项,其中一个为标准答案。为了验证问题/答案对,我们过滤掉可以通过多个LLMs在没有视觉信息的情况下正确回答的问题。我们进一步雇佣人类注释者选择正确选项并将每个问题分类到一个评估维度。


SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

图3:SEED-Bench生成图像多项选择题的流程概述。

(a) 我们首先利用各种基础模型提取视觉信息,包括图像级描述、实例级描述和文本元素。基于与特定评估维度相对应的专门设计的提示,ChatGPT/GPT-4随后生成问题和四个候选选项,其中一个为标准答案。(b) 我们进一步利用LLMs筛选问题,并雇佣人类注释者选择正确选项,并将每个问题分类到一个评估维度。

视觉信息提取

为了构建与空间理解相关的问题,我们使用多种预训练模型将每张图像的丰富信息解释为文本,以便ChatGPT/GPT-4能够理解图像并相应地创建问题。为了构建与时间理解相关的问题,考虑到从视频中提取可靠的时间信息(尤其是细粒度动作和长期时间上下文)非常困难,我们利用视频数据集的标准注释。我们将探索如何基于自动提取的视频信息生成问题。

图像的视觉信息提取包括以下部分:

- 图像描述:图像描述包含图像的整体描述。我们使用BLIP2和Tag2Text为每张图像创建描述。前者为整个图像创建描述,而后者基于每个实例的描述生成描述。两个模型相辅相成,以单个句子的形式描述图像内容。

- 实例描述:除了可能忽略图像中具体细节的描述外,我们还使用实例级描述从图像中提取视觉信息,包括对象检测、属性检测和密集描述。具体来说,我们使用SAM对图像中的每个实例进行分割,并根据分割结果获取它们的边界框。对象标签使用Tag2Text获得。此外,我们还使用属性检测器获取图像中每个实例的属性。最后,我们使用GRiT生成密集描述,使用简短句子描述图像中每个检测到的实例。这些实例级描述对图像描述是补充,进一步丰富了每张图像的视觉信息。

- 文本元素:除了对象,图像中的文本也包含描述图像的重要信息。我们使用PaddleOCR检测文本元素。

问题-答案生成

在从图像和视频中提取视觉信息后,我们让ChatGPT/GPT-4基于提取的信息或视频注释生成多项选择题。对于每个空间理解评估,我们仔细设计提示,要求ChatGPT/GPT-4根据提取的视觉信息创建四个候选选项的问题。我们使用ChatGPT为所有评估维度创建问题,除了推理维度,我们使用GPT-4因为其卓越的推理能力。对于每个问题,我们要求ChatGPT/GPT-4创建一个正确选项和三个干扰选项。我们试图通过使三个错误选项与正确选项相似来使多项选择题具有挑战性。生成不同评估维度多项选择题的详细提示列在图4中。对于生成与时间理解相关的问题,我们使用选定视频的标准注释作为

多项选择题的答案,并雇佣ChatGPT生成三个干扰选项。


SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

图4:为不同评估维度生成多项选择题的提示语。

(翻译:

默认指令:

“你是一个AI视觉助手,可以分析单张图像。你会收到描述图像的三种信息,包括图像的描述、对象检测和属性检测结果。对象检测结果中提供了对象类型及其详细坐标。属性检测结果中的每一行代表一个对象类别及其坐标,以及其属性。所有坐标以边界框的形式表示,格式为(x1, y1, x2, y2),数值范围从0到1。这些值分别对应左上角x,左上角y,右下角x,右下角y。你的任务是使用提供的信息,创建关于图像的多项选择题,并提供选项和答案。

不要直接提到边界框坐标,而是利用这些数据用自然语言解释场景。包括对象数量、对象位置、对象之间的相对位置等细节。

在使用描述和坐标信息时,直接解释场景,不要提及信息来源是描述或边界框。始终回答时要像是你在直接看图像。

创建多个问题,每个问题有4个选项。通过不在问题中包含视觉内容的细节来使问题具有挑战性,以便用户首先需要推理这些内容。创建一个有四个选项(A、B、C和D)的多项选择题,确保一个选项是正确的,其他三个选项是合理但不正确的。对于每个问题,尝试通过创建一个非常类似于正确答案但错误的选项来增加其挑战性。

请注意,给定的信息可能是不准确的图像描述,因此图像中可能没有被检测描述,而某些项目在属性检测中可能会被多次检测到。因此,仅在你对答案有信心时才创建问题。不要解释你的选择。”

场景理解指令:

“创建关于图像主要内容的复杂问题。应该能够通过快速浏览整个图像回答问题,而不必直接仔细查看单个对象或人。问题不应与图像中的单个对象相关,而应与此图片的整体主题相关。”

实例身份指令:

“创建关于图像中出现对象身份的复杂问题,例如其类型/类别或其存在。例如,你可以问‘某个对象是什么?’或‘某个对象是否出现在图像中?’。回答问题时,预期需要快速查看图像中提到的对象。”

实例属性指令:

“创建关于某个对象属性的复杂问题,例如其颜色、形状或细粒度类型。回答问题时,需要仔细查看图像中某个对象的视觉外观,但不必考虑其他方面的信息,如空间位置或其身份。”

实例定位指令:

“创建关于图像中某个对象位置的复杂问题。问题应基于对象的坐标创建。回答问题时,需要找到提到的对象,并查看其在图像中的位置。预期在不必查看其他对象的情况下回答问题。”

实例计数指令:

“创建涉及某个对象出现次数的问题。以‘有多少....’开头。问题的选项应为数字。回答问题时,需要找到并计数图像中提到的所有对象。”

空间关系指令:

“创建关于两个对象之间空间关系的问题。问题主要应基于两个对象的坐标。回答问题时,需要找到提到的两个对象,并找到它们的相对空间关系来回答问题。”

实例互动指令:

“创建关于两个对象之间关系和连接的问题,例如‘某人正在对某个对象做什么’和‘两个对象之间的关系是什么’。回答问题时,需要找到提到的两个对象,仔细查看图像,并稍微推理图像以理解它们的关系。”

视觉推理指令:

“创建超越描述场景的复杂问题。回答此类问题时,首先应理解视觉内容,然后基于背景知识或推理,解释为什么事情会这样发生,或为用户的请求提供指导和帮助。通过不在问题中包含视觉内容的细节来使问题具有挑战性,以便用户首先需要推理这些内容。”

文本识别指令:

“创建与图像中的文本相关的问题。描述问题时不要提及OCR中的任何内容,而要像直接查看图像一样。”)

自动过滤

我们的基准旨在评估MLLMs的多模态视觉语言理解能力。然而,我们发现一些生成的问题可以通过LLMs在不看图像的情况下正确回答。我们认为这些问题对于评估MLLMs的视觉理解能力没有帮助。为此,我们将生成的问题(不含图像)输入三个强大的LLMs,包括Vicuna-7B、Flan-T5-XXL和LLaMA-7B,并要求它们回答这些问题。我们经验发现,5.52%的生成问题可以通过所有三个LLMs正确回答。我们将这些问题从基准中筛选掉。

人类注释

为了确保SEED-Bench的准确性和客观性,我们进一步雇佣人类注释者验证生成的问题/答案对。人类注释者被要求为每个多项选择题选择正确答案并将每个问题分类到一个评估维度。如果一个问题不能基于视觉输入回答,或者没有正确选择,或者有多个正确选择,它将被人类注释者丢弃。最终得到一个包含19K道多项选择题的清晰、高质量且分类良好的评估基准。每个评估维度多项选择题的数量统计如图1所示。我们可以观察到文本识别维度的问题最少,有85个样本,实例定位维度的问题最多,有4649个样本。我们将在未来保持不同评估维度多项选择题的均匀分布。

表3:不同模型在SEED-Bench上的评估结果,其中“Spatial”显示了在评估空间理解的九个维度上的平均表现,“Temporal”显示了在评估时间理解的三个维度上的平均表现。


SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

3.4 评估策略

不同于MMBench使用ChatGPT将模型的预测与多项选择题中的选项匹配(仅实现了87.0%的匹配率),我们采用答案排名策略来评估现有的MLLMs与多项选择题。具体来说,对于每个问题的每个选择,我们计算MLLM生成该选择内容的可能性。我们选择可能性最高的选项作为模型的预测。我们的评估策略不依赖于模型输出“A”或“B”或“C”或“D”的指令遵循能力。此外,这种评估策略消除了多项选择题选项顺序对模型性能的影响。

4 评估结果

4.1 模型

基于我们的SEED-Bench,我们评估了包括3个LLMs(即Flan-T5、Vicuna、LLaMA)、12个ImageLLMs(即OpenFlamingo、BLIP-2、MiniGPT-4、LLaVa、mPLUG-Owl、InstructBLIP、Otter、MultimodalGPT、GVT、PandaGPT、VPGTrans、LLaMA-Adapter V2)和3个VideoLLMs(即VideoChat、Video-ChatGPT和Valley)在内的18个模型。每个模型都在包括空间和时间理解的12个维度上进行了评估。对于ImageLLMs,除了评估其空间理解能力外,我们还旨在调查其在多个帧之间进行时间推理的能力。对于VideoLLMs,我们探讨了其在输入单张图像时,空间理解能力是否有所退化。

4.2 结果

不同模型在SEED-Bench上的评估结果列在表1中,其中准确率指正确回答的多项选择题相对于问题总数的比例。我们惊讶地发现,InstructBLIP不仅在评估空间理解的九个维度的平均结果中取得了最佳表现,而且在评估时间理解的三个维度的平均结果中也超过了VideoLLMs。我们在图5中展示了SEED-Bench上各种评估维度的排行榜,以提供对不同模型的全面评估。基于所有评估维度平均结果的总体排行榜显示在图1中。为了更好地展示模型在不同评估维度中的能力,我们进一步在图6中可视化了每个模型在每个评估维度中的排名,其中颜色越深表示排名越高。我们可以观察到,BLIP系列模型在多个评估维度中取得了竞争性结果,但在视觉推理和动作识别方面表现不佳。VideoLLM Valley在大多数评估维度中表现次优。LLaVa在文本识别评估中表现出与其他评估维度相比无与伦比的能力。就具体评估维度而言,MiniGPT-4和mPLUG-Owl模型在视觉推理方面表现更好,而VPGTrans模型在动作识别和过程理解方面表现出色。LLaMA Adapter V2模型在动作识别方面表现更加熟练。此外,Multimodal GPT、Otter、Openflamingo、GVT和三种VideoLLMs在各种评估维度中表现均衡。

 

SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

图5:SEED-Bench上不同评估维度的排行榜。


SEED-Bench:基于生成理解的多模态大语言模型基准测试(CVPR2024) -AI.x社区

图6:各模型在不同评估维度中的表现示意图,其中颜色越深表示排名越高。

4.3 分析

通过对各种模型在SEED-Bench上的全面和客观评估,我们观察到了一些可以为未来工作带来启示的发现。

大多数MLLMs在所有12个评估维度上的表现仍然有限。如图1和图5所示,除BLIP系列模型外,大多数MLLMs在平均表现和超过三个单一评估维度上的表现均未达到50%的准确率。在某些特定的评估维度(例如视觉推理)中,大多数MLLMs似乎取得了较高的准确率。然而,当将MLLMs的表现与LLMs进行比较时,我们发现大多数MLLMs的性能提升仍然相对有限。

MLLMs在全局图像理解上表现相对较高。在场景理解和视觉推理的评估中,大多数MLLMs的准确率超过40%,且所有MLLMs的表现均优于LLMs。这表明,MLLMs在图像的全局理解和推理方面比在其他需要细粒度实例级理解的评估维度上更为熟练。

InstructBLIP在12个评估维度中的8个维度上表现最佳。我们观察到,InstructBLIP在8个评估维度上超过了其他模型,可能的解释如下:(a) InstructBLIP的指令调整数据包含总计1600万样本(比其他指令调整数据集更大),涵盖了广泛的多模态任务,甚至包括OCR和时间视觉推理的QA数据。(b) 在执行InstructBLIP的指令调整时,LLMs的权重被冻结,这可能缓解了灾难性遗忘。然而,InstructBLIP系列模型在动作识别和过程理解方面表现仍然较差,这与指令调整数据显著不同。例如,在需要理解细粒度动作的Something-Something-v2上的动作识别方面,InstructBLIP系列模型的性能提升相比LLMs并不显著(低于2%)。这表明InstructBLIP系列模型可能在分布外数据上的泛化能力较差。

MLLMs在理解对象间的空间关系方面表现较弱。排名最高的InstructBLIP在空间关系评估中的准确率仅为40%,这表明识别实例之间的相对空间关系是具有挑战性的,因为可能存在多种空间关系的排列和组合。此外,某些情况下对象之间的空间关系可能会引起歧义,使得确定它们的关系变得困难。

大多数MLLMs在文本识别方面表现不佳。除了InstructBLIP,所有其他模型在文本识别方面的准确率均低于40%,这主要是由于多模态预训练数据集中缺乏文本元素。由于准确识别和提取图像中的文本能力非常重要,未来的工作应开发更好地处理文本识别的模型,通过在包含丰富文本元素的视觉数据集上进行预训练。

VideoLLMs在空间理解方面取得了令人鼓舞的结果。例如,VideoChat在实例定位中的准确率为39.98%(排名第4),超过了LLaVa 11.55%,且仅比排名第一的模型低3.58%。这表明,VideoChat在预训练和指令调整阶段联合训练图像和视频数据时,其空间理解能力没有退化。

大多数MLLMs在细粒度时间理解方面表现不佳。值得注意的是,在过程理解的评估中,排名最高的模型VPGTrans的准确率仅比LLaMA高出5%。接下来的4个MLLMs的性能提升相比LLaMA甚至低于1.2%。这表明,ImageLLMs和VideoLLMs在执行细粒度时间推理以识别和排序视频中的关键动作方面都非常困难。

VideoLLMs在时间理解方面未能实现竞争力的表现。尽管VideoLLMs在视频数据上进行了指令调整,但在时间理解的评估维度上并未表现出显著优势。令人惊讶的是,两种VideoLLMs(Video-ChatGPT和Valley)在动作识别、动作预测和过程理解方面的表现甚至低于大多数ImageLLMs。这表明现有VideoLLMs在细粒度动作识别、时间关系理解和时间推理方面的能力仍然有限。最近的研究工作也提出了对现有VideoLLMs的类似担忧。

5.结论

在这项工作中,我们提出了一个大规模基准SEED-Bench,以对多模态大语言模型(MLLMs)的生成理解进行全面和客观的评估。SEED-Bench包含19K道带有精确人类注释的多项选择题,涵盖了包括空间和时间理解在内的12个评估维度。我们设计了一个先进的流程来创建针对特定评估维度的多项选择题,促进了跨各种领域的评估数据的可扩展性。我们还整合了自动过滤和人工验证,以提高生成问题和答案的质量。我们对18个模型进行了全面评估,分析和比较了它们的表现,为未来的研究提供了见解。我们计划推出并持续维护一个排行榜,为社区提供评估模型性能的平台。我们将继续通过更多数据进一步拓宽SEED-Bench的评估维度。

Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

1Tencent AI Lab

2ARC Lab, Tencent PCG


本文转载自公众号AIRoobt ,作者:AIRoobt

原文链接:​​https://mp.weixin.qq.com/s/2zdueb2OiCSCvZLochkP9Q​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2024-7-4 17:42:12修改
收藏
回复
举报
回复
相关推荐