如何全面评估多模态大模型能力?MLLM评测任务与指标总结 原创 精华
本篇总结了多模态大模型的评测任务和指标。
目前多模态大型语言模型(MLLMs)的研究主要集中在模型架构和训练方法上,但用于评估这些模型的基准测试的分析还比较少。
另外目前评测可能还存在三大问题:
- 目标不一致:每个模态、基准测试都有不同的目标,导致研究领域碎片化。
- 任务饱和:多样化目标驱动的任务激增,这种饱和使得很难辨别真正创新或有影响力的基准测试,导致宝贵的资源被忽视或利用不足。
- 指标演变与差异:曾经推出发一些设计良好的指标受到基准测试快速演变和频繁更新的阻碍。
大家在评估哪些多模态大模型适用于自己的任务时,可能也会存在多方面的考虑,本篇对论文《A Survey on Multimodal Benchmarks: In the Era of Large AI Models》进行了一个解读与快速总结,让大家对多模态大模型评测内容有个快速的了解,可以在实际挑选的时候,有意识地去评估模型的相关能力。
一、理解任务
1. 视觉感知
视觉感知能力涉及提取显著特征和准确识别和解释视觉元素(例如,多个对象、文本信息和复杂的情感或隐含线索)
- 细粒度感知
- 多类识别:识别图像中是否存在某些对象。
- 对象属性:识别对象的特定属性,如颜色、纹理和状态。
- 对象计数:确定图像中特定对象的实例数量。
- 对象位置:表示对象相对于图像的位置。由于上下文在对象检测中的重要性,CODE基准测试通过上下文丰富的环境更好地评估模型,增强了任务设计。
- 空间关系:推理两个或多个对象之间的空间关系。
- 光学字符识别(OCR):识别查询区域内的文本。
- 高阶感知
- 情感识别:从图像中识别情感表达。
- 含义理解:给定图像和一组多项选择问题,具有固定的可能答案,模型必须选择最能解释图像的视觉隐含含义或价值的正确答案。
- 美学理解:通过问题从图像中识别美学属性(例如,内容和主题),然后提供美学描述,最后通过数量分数进行美学评估。
- 综合感知
目前主要是下面三个方向:
- 引入相对ICL准确性和相对鲁棒性,用于多选QA,以衡量上下文学习和鲁棒性,强调超越随机猜测的改进;
- 引入通用智能准确性(GIA)指标,利用验证性因子分析来验证MLLMs的认知结构与人类智能的一致性;
- 引入多模态增益(MG)衡量视觉输入的改进,以及多模态泄漏(ML)检测意外的数据暴露,确保公平比较。
2. 上下文理解
- 上下文依赖理解
给定一个查询和一个带有两种不同上下文的图像,MLLMs需要生成正确的响应。因此为了更好地衡量在不同上下文中识别的能力,设计了上下文意识指标。
- 多图像理解
通常结合多图像输入任务,如动作识别和图表理解。举例来说,可以用于复杂任务的监控和解密图像序列中对象的位置变化。使用模型提取和标准化AI生成的描述中的对象和行为关键词,将这些列表与人类基准进行比较以评估准确性。
- 长上下文理解
这项任务通过在长无关图像和文本语料库(haystack)中准确找到相应的信息来评估MLLM的长上下文理解能力。例如,模型必须定位由给定标题描述的特定子图像;在文本任务中,模型从密集的多模态上下文中提取7位密码,而在图像任务中,识别并检索嵌入在图像中的文本,需要OCR能力。
- 交错图像-文本理解
给定交错的图像-文本内容(例如,上下文示例),模型必须有效地响应查询(例如,QA或字幕格式)
引入了交错图像-文本理解任务,其中模型不仅基于更长的图像-文本序列回答问题,还识别与响应相关的特定图像索引。
- 空间-时间感知
涉及检索、排序和计数插入到视频序列中的视觉(信息)“针”,挑战模型准确处理和分析长上下文视频中的空间和时间信息。
3. 特定模态理解
- 长视频理解
以事件为导向的长视频理解,并提出了层次化任务分类法,包括原子事件理解(例如,事件描述)、复合事件理解(例如,时间推理)和整体理解(例如,上下文推理)
- 综合视频理解
任务涵盖三个不同的层次:视频专有理解、基于先验知识的问题回答和理解与决策。
另外强调技能(记忆、抽象、物理、语义)和推理类型(描述性、解释性、预测性、反事实性)在视频、音频和文本模态上的跨模态评估任务。
- 音频理解
关注六个维度的分类任务——内容、说话者、语义、退化、副语言学和音频处理——使用指令调整来评估模型处理已见和未见场景的能力。另外结合了基础和基于聊天的音频任务的层次化评估,涵盖所有音频类型。
- 3D理解
引入了两个新任务:部件感知点定位和部件感知点定位字幕。
- 在部件感知点定位中,根据用户指令预测部件级别的分割掩模。在
- 部件感知点定位字幕中,生成一个详细的字幕,包括部件级别的描述,每个描述对应一个分割掩模。
另外也有通过NeRF权重解释3D场景的几何和逼真表示的任务。
- 全模态理解
评估模型识别来自不同模态的输入实体的共同点的能力,挑战它从四个给定选项中选择最合适的答案。
任务强调视觉定位,并引入了多模态通用信息提取的概念,涉及跨文本、图像、音频和视频输入提取和关联信息,确保实体和事件准确链接到它们对应的模态。
二、推理任务
1. 关系推理
关系推理任务可以广泛分为三种主要类型:
第一种类型侧重于预测关系,包括实体之间还是模式之间。
- 以实体为中心的任务涉及检测对象及其成对关系,
- 以模式为中心的任务,旨在从给定的视觉模式中推断关系,以预测后续模式。召回率和准确性分别用于评估以实体为中心和以模式为中心的任务。
第二类涉及空间中心关系,如地面空间推理,3D空间定位和细粒度空间推理。像基于IoU(交并比)的准确性这样的指标用于评估性能。
第三类涉及时间中心关系,如基于不同视频片段回答问题,或执行时间和语言定位。这些任务的常见评估指标包括准确性、BLEU、BERT分数和召回率。最后,以比较为中心的任务侧重于在对象、场景或情境之间进行相对比较。准确性用于评估。
2. 多步推理
多步推理任务可以广泛分为两种主要类型:基于规则的任务和思维链(CoT)任务。
在基于规则的任务中,期望应用预定义的规则或推断底层模式来解决问题。例如,在寻找数学谜题中缺失值的任务中,模型必须从给定的信息中推断出控制规则。
CoT任务强调模型将问题分解为一系列逻辑的、顺序的步骤的能力。例如模型识别关键图像区域并通过问题逐步推理,提供了中间边界框和推理注释以促进评估。
3. 反思推理
反思推理任务可以广泛分为三种类型:反事实思维、分析性提问和知识编辑。
第一种反事实VQA 中,MLLMs被要求通过基于给定事实的假设场景生成答案,从而评估它们执行反事实推理的能力。例如,一个典型的问题可能会问“如果地面是干的,人们戴着太阳帽而不是举着伞,天气可能会是什么?”。
第二种分析性提问这方面,现有工作主要集中在问答上,而分析性提问,包括提问和评估技能很大程度上没有探索。
第三种类型的任务,知识编辑,评估MLLMs更新知识的能力,特别是当面对过时或不准确的信息时。例如,引入了一跳和多跳推理任务,用于知识编辑。知识编辑的指标更为微妙,包括可靠性、普遍性、局部性、可移植性和一致性等措施。
三、生成任务
1. 面向能力
- 交错图像-文本生成
给定包含文本和图像的提示,此任务旨在评估模型在模态间生成连贯、交错内容的能力。
例如基于给定问题的交错图像-文本生成,模型仅基于给定的问题生成交错内容,而不提供初始图像信息,推动模型推理和预测结果;
或专注于故事领域,涉及任务如多模态故事延续和多模态故事生成。前者专注于用文本和图像扩展给定的叙述,而后者挑战模型从头开始创建整个叙述序列,无缝整合文本和视觉内容。此任务的主要评估方向是生成的交错图像和文本的连贯性和一致性;
或者利用模型评估交错图像-文本内容中的实体和风格一致性。通过采用思维链方法,BingChat逐步检测和分析常见主题和视觉风格因素,如色彩调色板和氛围,以生成最终的定量分数
- 代码生成
涉及从各种格式的输入创建编程代码,如文本和图像,甚至更复杂的网页。旨在整合MLLMs的优势,它们可以理解和处理多样化数据类型,促进将复杂的、多方面的规范转换为可执行代码。
任务从网页图像生成HTML代码,通过将代码转换回图像并与ground-truth进行比较,专注于视觉保真度,而不是传统的代码级指标。
或强调功能性和视觉准确性,通过整合传统的代码执行检查与使用GPT-4v和详细文本匹配指标的高级视觉评估,提供超出标准代码通过率的全面评估。
- 指令遵循
要求MLLMs生成严格遵循给定指令或指令的输出。
例如查询输入通常结合了定义目标和格式的任务指令,以及提供多模态上下文的特定任务实例。对于每个指令收集了指令条件字幕,这些字幕不仅提供图像的一般描述,还强调与给定指令相关的特定信息。
- 幻觉
视觉幻觉(VH)指的是在视觉问答期间模型生成关于图像的错误细节的实例,包括错误的前提、上下文不足和解释视觉数据,幻觉发生在模型提供错误答案时,适当的响应应该是“我不知道”。
可以通过测量模型响应中幻觉对象的频率来评估幻觉。
为了提高可信度并解决MLLMs中的幻觉,BEfore-AFter幻觉数据集(BEAF)引入了四个关键指标:真理解(TU)、无知(IG)、固执己见(SB)和犹豫不决(ID)
TU评估模型是否正确回答了关于移除对象的问题;
- IG在给出错误答案时测量无知;
- SB评估模型坚持初始答案的倾向;
- SBp和SBn表示一致的“是”或“否”响应;
- ID跟踪与移除对象无关的问题的答案的不必要变化。
- 安全性
安全性任务确保MLLMs的响应不会导致有害或非法的结果。LLM需要从安全回答、谨慎回答或拒绝回答中选择。
对于毒性评估可以提供了输入,如NSFW图像(例如,暴力或露骨内容)与字幕查询配对,以评估模型倾向于生成有害响应的趋势。
对于越狱,它涉及测试模型对旨在绕过安全协议的提示的抵抗力(例如,带有嵌入文本截图的图像询问非法查询),并衡量模型是否以不违反安全指南的方式适当响应。
- 可信度
任务通过提供图像与事实性或误导性文本查询配对的输入来评估MLLMs,并评估它们响应的准确性。
例如专注于面部反欺骗和面部伪造检测任务,要求MLLMs根据不同模态(例如,RGB、深度图、红外图像)的挑战性输入,准确识别真实与假面部。
此外还可以引入了多属性思维链范式,通过分析多个属性(例如,形状、颜色、纹理)来增强推理,以实现更可靠和全面的决策。
- 健壮性
MLLMs被给予图像,并被要求回答正面问题以评估视觉理解,并回答误导性问题以测试对欺骗性提示的健壮性,从多个选择中选择正确答案。
根据模型的响应如何专注于本质的核心特征,同时忽略不相关、误导性的偶然特征,评估其对跨模态偶然偏见的抵抗力。
2. 面向模态
- 仅文本
应用传统的图像字幕指标,例如ROUGE和METEOR,以及基于LLM的评估。
- 仅视觉
Inception Score(IS)和CLIP分数这样的指标衡量与地ground truth的视觉保真度和多样性。
为了评估风格一致性和重建准确性,采用像结构相似性指数度量(SSIM)和峰值信噪比(PSNR)这样的指标。
- 跨模态
确保不同模态间内容一致性和叙事连贯性至关重要,跟交错图像-文本生成比较类似。
利用MLLMs评估图像和文本之间的连贯性或一致性,通过检查风格、实体、内容趋势等。
四、应用任务
1. 交互式决策制定智能体
这个任务将环境和智能体被建模为部分可观察的马尔可夫决策过程(POMDP):E = (S, A, Ω, T)
智能体接收状态st ∈ S的部分观察ot ∈ Ω,采取行动at ∈ A,并根据函数T : S × A → S转换到新状态,旨在完成像网页导航或信息检索这样的任务。
2. 具身决策制定智能体
该任务概述任务目标的语言指令以及进行人类水平的规划,根据视觉输入确定下一个合适的行动。这种视觉输入由显示过去帧的视频序列组成,这些帧跟踪任务进展,最后一帧代表当前的自我中心视图。
3. 机器人应用
对模型响应进行判断,将模型的响应分类为“A”(正确),“B”(错误)或“C”(不确定)。
4. 自动驾驶
引入图形视觉问答(GVQA),其中推理任务被构建为问题-答案对内的有向图,与传统的自动驾驶视觉问答不同,GVQA利用问题-答案之间的逻辑依赖关系来增强回答过程。
本篇文把目前多模态大模型的评测方向和指标进行了一个罗列总结,大家可以在挑选大模型的时候基于自己想要完成的任务,进行特定方向的评测~
参考文献
[1] A Survey on Multimodal Benchmarks: In the Era of Large AI Models
文转载自公众号瓦力算法学研所,作者:喜欢瓦力的卷卷