TASK-ME-ANYTHING:一个多模态benchmark生成引擎
一、结论写在前面
论文标题:Task Me Anything
论文链接:https://arxiv.org/pdf/2406.11775
项目链接:https://www.task-me-anything.org
大多模态语言模型(MLMs)的基准现在同时评估模型的通用能力,而不是针对特定能力的评估。因此,当开发者想要确定哪些模型适用于他们的应用时,他们会被众多的基准所淹没,并且不确定哪个基准的结果最能反映他们的具体用例。
论文介绍了TASK-ME-ANYTHING,一个基准生成引擎,它能够根据用户需求定制基准。TASK-ME-ANYTHING维护了一个可扩展的视觉资产分类法,并能够程序化地生成大量的任务实例。此外,它还能在计算预算内高效地处理关于MLM性能的用户查询。它包含113K张图片,10K个视频,2K个3D对象资产,超过365个对象类别,655个属性,以及335种关系。它能够生成7.5亿个图像/视频问答对,专注于评估MLM的感知能力。
TASK-ME-ANYTHING揭示了:开源MLMs在对象和属性识别方面表现出色,但在空间和时间理解上有所欠缺;每个模型都展现出独特的优势和弱点;较大的模型通常表现更好,尽管存在例外;GPT40在识别旋转/移动对象和区分颜色方面遇到挑战。
二、论文的简单介绍
2.1 论文的背景
当开发者想要确定哪些模型适用于他们的应用时,他们仍然不确定哪些基准测试结果最符合他们的特定用例。考虑一个场景,应用开发者需要一个能最准确识别物体形状的模型。他们可能会发现存在如SHAPES 和 CLEVR 这样的现有数据集,其中包含与形状相关的任务实例,但涉及的物体是简单的几何图形而非现实世界中的物体。同样,考虑一家大型科技公司的研究团队,他们希望识别其专有MLM的局限性。尽管MLMs发布了在MMBench、MMMU、BLINK和SeedBench等基准上的评估结果,但这些整体基准的性能并不能精确指出哪些细粒度能力不足。
图1展示了用户查询的示例,以及由TASK-ME-ANYTHING生成的相应任务实例及其在解答这些查询上的评估结果
存在一个需求,即需要一个原则性的基准生成过程来解答针对特定任务的用户查询:“(Q1) 哪个模型在识别物体形状方面表现最佳?”或“(Q2) 论文可以进一步改进模型的哪些弱点?”。为了实现这样一个过程,存在几个挑战。首先,论文需要定义一个可扩展的分类法来表示输入和输出的空间。例如,为了回答Q1,该分类法必须包含物体及其形状。此分类法应易于扩展,以便未来的查询能够评估新概念。其次,该过程必须能够根据用户查询精心策划足够数量的输入-输出评估对。为了回答Q1,它必须能够生成包含已知形状物体的数千张图像。第三,评估机器学习模型(MLMs)在计算上是昂贵的,因此评估过程应在给定计算预算的情况下估计MLM的性能。
论文提出了TASK-ME-ANYTHING,这是一个基准生成引擎,可以根据用户查询定制专用基准(图1)。
首先,TASK-ME-ANYTHING维护一个可扩展的分类体系,并配有相应的视觉资产(例如带有场景图的图像、3D对象资产、带有时空标注的视频、渲染软件等)。它作为一个可扩展的库实现,其中可以轻松添加新的概念及其对应的资产和标注。
其次,TASK-ME-ANYTHING包含程序化任务生成器,这些生成器从分类体系中进行子选择,以策划大量输入-输出对。图像/视频要么来自现有数据集,要么通过特定配置程序化生成。凭借论文当前的分类体系,TASK-ME-ANYTHING能够生成超过7.5亿个任务。相比之下,现有的MILMs基准任务实例较少:MME(2,194个)、MMBench(3,217个)、BLINK(3,807个)、MMMU(11,550个)、SeedBench(19,242个)。程序化任务生成并非新颖——CLEVR[43]和GQA[39]也是程序化生成的。尽管它们的贡献是最终生成的基准,但论文的贡献是基准生成过程本身。
第三,TASK-ME-ANYTHING允许用户指定计算预算。它包含算法,通过预测模型在大量输入-输出对上的性能,而不实际在每个任务实例上调用MLM,来近似用户查询的结果。
2.2 TASK-ME-ANYTHING
考虑一个用户想要了解“哪个开源MLM最擅长识别旋转中的物体?”的情况。TASK-ME-ANYTHING为用户提供了一个界面,以便他们提出此类问题并获得答案(图2)。
它包含了一个用于符号化表示视觉内容的分类法。查询识别出回答查询所需的分类法的相关部分。它还包含了任务生成器,这些生成器创建输入-输出对以测试特定能力。分类法的子集用于选择适当的任务生成器。
论文采用了现有基准中常用的输入-输出格式,即TASK-ME-ANYTHING中的所有任务实例都包含图像/视频、一个问题和多个选项,其中有一个是正确答案。MLMs将在这些生成的任务实例上进行评估,并将结果返回给用户。
最后,它还支持查询,不仅询问最佳性能模型,还询问任务实例(“找出GPT40表现最差的10个任务实例”)或分类法概念(“找出GPT4O性能高于阈值的物体”),以及针对此类细粒度查询的预算内结果近似方法。与大多数现有的程序化数据系统不同,论文设计TASK-ME-ANYTHING使得任务生成空间可以通过添加新的源数据和/或任务生成器代码来扩展。
2.2.1 分类法
论文采用时空场景图作为图像或视频中表示的概念的一种表示形式。在场景图中,对象及其相应的属性是节点,对象之间的关系是边。场景图已经被用于在数据集如GQA和AGQA中程序化生成VQA任务实例。
场景图表示是通用的:它可以扩展以包含诸如光照条件等概念,并询问光源、照明和阴影等问题。实际上,论文将传统的场景图与Objaverse中的3D对象资产相结合,使论文能够询问任何具有可用3D模型的对象及其空间位置等问题。
2.2.2 任务生成器
任务生成器是一个Python程序,它可以根据分类法的一个子集生成VQA任务实例。它使用模板类型生成问题:“图像中有多少<目标对象>?”,其中<目标对象>可以填充场景图中的对象,如“电话”。
此外,它根据场景图程序化地生成正确答案。它为每个问题合成错误但看似合理的选项。对于与每个问题相关的视觉输入,论文使用带有场景图注释的图像和视频。然而,场景图数据成本高且有限。为了促进多样化的用户查询,论文程序化地从场景图表示生成图像/视频。由于图像/视频生成模型可能会在论文的评估流程中引入潜在错误,论文将使用生成模型的任务留待未来的工作。相反,论文程序化地生成图像/视频布局并渲染它们。
图2展示了TASK-ME-ANYTHING的关键组件。上半部分展示了任务生成过程,以一个使用3D物体及其标注合成的示例视频为例,以及用于生成关于旋转物体属性的问题的任务生成器。下半部分描述了模型评估过程,该过程根据用户的查询和预算选择相关任务,并执行完整评估或结果近似以回答查询
使用Blender结合3D物体模型,通过以下两种方法实现:
(1)二维贴纸图像(简称2D):受SHAPES数据集 [4] 启发,论文将单个3D物体模型的二维渲染图像置于网格中(2x2或3x3)以构成图像,这种方法生成快速但缺乏真实感,例如,合理的物体共现、光照、阴影等元素缺失。
(2)三维桌面场景(简称3D):为克服2D方法的局限性,论文在桌面上放置3D物体资产后渲染场景以生成图像[68]。同样,论文生成视频,并在不同关键帧调整物体的位置和角度,使物体移动和旋转。这种渲染的图像/视频更为真实,因为Blender还支持光照和碰撞控制。
2.2.3 处理用户查询
鉴于TASK-ME-ANYTHING能够生成的数百万个任务实例,即使在整个任务空间上评估单个模型在计算上也是不可行的。对于日常用户来说,这也会耗费太长时间。论文描述了TASK-ME-ANYTHING如何支持按需任务生成和评估以解决用户查询。
细粒度用户查询。虽然许多用户查询可以通过上述工作流程简单处理,论文还额外支持了四种细粒度的用户查询,用于针对单个任务和分类法概念的调查:
1.7op-K查询使用户能够请求排名前K的分类法概念或任务(例如,“返回LLAVA-13B在哪些颜色/任务上表现不佳的前10名”)。
2.阈值查询允许用户查询模型性能超过或低于给定阈值的分类法概念或任务(例如,“找出LLAVA-NEXT-34B和GPT40在哪些物体识别任务上的准确率低于30%”)。
3.模型比较查询识别一个模型在哪些类型的任务上以指定幅度优于另一个模型,实现比较分析(例如,GPT40在哪些类型的任务上优于GEMINI-PRO?)。
4.模型调试查询识别模型性能与其平均水平相差一个标准差的情况,有助于揭示模型的不一致行为(例如,VIDEO-LLAMA-2-7B在识别哪些动作时与其他动作相比有困难?)。
处理预算下的细粒度查询。这些细粒度的用户查询可能涉及大量任务以生成和评估以获取查询结果。例如,为了获取模型表现最差的任务生成器的排名前K的任务,论文必须评估所有可能的任务。为此,论文借鉴了主动学习文献[45],为这些细粒度用户查询实施了三种高效的查询结果近似方法:
(1) 随机采样:从查询的总可能任务中随机抽取一部分任务实例。仅评估MLMs(机器学习模型)在这一子集上的表现。
(2) 拟合采样:同样随机抽取一个子集并评估MLMs。结果用于为每个MLM训练一个高效的功能近似器。该功能近似器通过特征化任务元数据来学习预测MLM在任务上的表现——从不实际生成任务实例本身。尽管有许多适用的模型选择,但论文在整个工作中采用高斯过程回归器,因为初步研究显示它能提供稳定的性能。它使用此功能来近似MLM在剩余任务空间上的表现。
(3) 主动学习:类似于拟合,但通过主动学习迭代训练每个功能近似器。给定一个较小的子集,它训练一个初始功能,然后用该功能采样最不确定的任务实例。MLMs在这些不确定的实例上进行评估,结果用于重新训练功能。
2.2.4 最终基准引擎
尽管TASK-ME-ANYTHING支持多种不同类型的推理任务,但目前它主要关注视觉感知能力。论文包含了28种不同的任务模板,跨越5种类型的视觉输入:2D贴纸图像(2D)、3D桌面场景图像/视频(3D)以及真实图像/视频。
图3:TASK-ME-ANYTHlNG中每个任务生成器的可生成任务统计及示例图像/视频。论文为每个任务生成器配备了高级感知技能,这一系列任务生成器共同能生成超过7.5亿个VQA任务
采用人工标注的场景图。总计,它能生成超过7.5亿种可能的VQA任务实例(详见图3的分解)。论文从Visual Genome 中抽取图像场景图,从Action Genome 中抽取视频时空场景图。论文还包含了GQA和AGQA以获取真实的VQA实例。对于2D和3D场景,论文从Objaverse-LVIS中选取了337个类别中的1,996个高质量3D对象,这是Objaverse 1.0 的一个子集,已用LVIS 类别进行标注。每个3D对象都人工标注了颜色、材料、形状和可见角度等属性。
这28种不同的任务生成器提供了一种全面评估视觉理解能力的方法,包括物体识别、属性识别、关系识别、定位、空间推理、时间推理、动作识别等(图3)。凭借这种多样性的潜在问题,TASK-ME-ANYTHING支持在不同所需粒度级别上的评估。
对于模型用户,TASK-ME-ANYTHING可以帮助决定哪款模型适合其需求;对于模型开发者,它能识别模型的弱点以进行改进。例如,一个希望找到区分不同犬种最佳模型的用户可以查询:“区分犬类的三大最佳模型是什么?”同样,模型开发者可能会查询:“所有模型在空间推理方面普遍缺乏哪些能力?”以识别当前架构中的一些普遍问题。或者他们也可能查询:“LLAVA在哪些类型的材料识别上表现不佳?”然后添加相应数据到训练中,以提升LLAVA的材料识别性能。
该系统不仅功能多样,而且可扩展。通过添加新的任务生成器、资产如3D对象模型以及软件如Blender、DALL-E等,论文可以持续扩展其分类体系。更新底层能力的分类体系比为机器学习模型(MLMs)快速增长的使用案例收集足够数据更具可扩展性。
2.3 使用TASK-ME-ANYTHING评估MLMs
在本研究中,论文广泛评估了13个开源MLMs在100万个任务实例上的表现,以及18个开源/专有MLMs在8,400个任务实例上的表现,这些任务实例均由TASK-ME-ANYTHING生成,以验证TASK-ME-ANYTHING并进行分析。
模型评估协议。论文采用模型在任务上的准确率来捕捉模型的性能。然而,一个任务可以包含众多具体的任务实例。实践中,论文随机为每个任务生成n个任务实例,然后使用模型在这n个任务实例上的准确率作为模型在该任务上准确率的代理。为了公平评估模型的性能并增强结果的鲁棒性,论文使用了两种版本的提示:简洁提示和详细提示。简洁版本仅在问题和选项之间添加了“从以下选项中选择”[24],而详细提示则包括更多指令,如:“基于图像/视频”,并将选项括在括号内(例如,“(A) 相机 (B) 电话”),并在提示末尾加上“最佳选项:(”以引导模型仅输出选项[53]。确切的提示模板可在图4中找到。对于选项提取,论文将模型输出与三种类型的选项表示进行匹配:1) 选项标识符,例如,“(A)”,2) 选项名称,例如,“相机”,3) 选项标识符和名称,例如,“(A) 相机”,以提高选项提取的召回率。
图4:论文采用两种不同的提示,详细提示和简洁提示,在论文的评估中以评估模型对不同提示的敏感性
TASK-ME-ANYTHING-RANDOM:随机任务集。为了概述当前TASK-ME-ANYTHING的任务空间,论文从每个任务生成器中创建一个包含100个任务的随机子集。对于每个任务,论文随机生成3个任务实例,产生5,700个图像问答任务实例和2,700个视频问答任务实例。论文称这个随机集为TASK-ME-ANYTHING-RANDOM,并将其作为基准发布。论文使用详细提示和简洁提示评估了18个开源/专有MLMs。
TASK-ME-ANYTHING-DB:模型评估结果数据库。论文还随机从所有任务生成器中选择了超过10万个任务,并为每个任务生成了15个任务实例,总共产生了超过100万个任务实例。然后,论文使用详细提示评估了13个开源MLM模型在这些生成的任务实例上,产生了总共24,240,780个<模型, 任务实例>评估对。论文称这一系列的评估结果为TASK-ME-ANYTHING-DB,论文用它来研究查询结果近似方法,并发布以供未来研究模型性能预测。
TASK-ME-ANYTHING-UI:模型性能研究图形界面。TASK-ME-ANYTHING 允许用户查询与其应用最相似的任务。因此,TASK-ME-ANYTHING 不必局限于大多数其他基准常见的静态排行榜。相反,论文通过交互式图形用户界面使 TASK-ME-ANYTHING 的发现可访问。论文的界面允许用户在不编写任何代码的情况下指定他们的需求。他们可以选择最能代表其应用的分类法部分。论文使用在 TASK-ME-ANYTHING-DB 中获得的探索结果来构建一个简单的示例界面:TASK-ME-ANYTHING-UI。它包含四个选项卡:
总体选项卡报告了在 TASK-ME-ANYTHING 分类法的不同子集上跨十几个 MLM 的模型性能;
任务嵌入选项卡在 2D 空间中可视化不同的任务实例,并允许用户观察模型在类似任务上的行为;
意外性选项卡突出显示了模型相对于类似任务表现出色或不佳的任务;
查询界面支持用户使用上述四种细粒度用户查询类型进行以查询为中心的模型能力或限制调查(图 5)。
2.4 验证与剖析 TASK-ME-ANYTHING
论文通过测量人类在论文任务上的表现来验证论文生成的评估数据的准确性。然后,论文评估了不同近似方法,以证明它们的效果。
图5:TASK-ME-ANYTHING-UI 接口
通过人类评估进行验证。为了验证TASK-ME-ANYTHING,论文首先对TASK-ME-ANYTHING-RANDOM进行了(N=2)人类评估,以检查任务的正确性。在这些随机子集中,标注者对于来自不同任务生成器的任务实例的准确率达到了92% - 100%(具体而言,人类在ImageQA 2D计数任务上达到了100%,而在VideoQA 3D旋转任务上达到了92%),表明论文的任务准确且可由人类解决。相比之下,GQA [39] 和 AGQA [29] 报告的人类性能在70% - 84%之间。
分析近似算法。论文在4种查询类型中共1,137个查询上评估了提出的查询结果近似算法(见表1)。为了衡量近似质量,论文使用TASK-ME-ANYTHING-DB的评估结果作为基准查询结果。从表1中可以看出,Active方法在几乎所有查询类型上都优于Random和Fitting方法,但仍有改进空间。实验和结果的更多细节见附录F。
表1:查询结果近似算法的性能。Top-K查询使用平均排名(MR,越低越好)和命中率(HR,越高越好)作为指标,而其他查询使用精确度(P)、召回率(R)和F1分数(F1)
2.5 使用TASK-ME-ANYTHING分析MLMs
论文使用TASK-ME-ANYTHING进行了多项分析,以突出其不同的使用场景,同时对当今的MLMs进行深入洞察。
2.5.1 查询1:模型在所有可能问题的一个随机子集上的表现如何?
论文评估了18个MLMs在TASK-ME-ANYTHING-RANDOM测试集上的表现(图6),以获得模型性能的概览。通常,详细的提示会产生更好的结果;然而,某些模型,如GPT4V,使用简洁提示时的表现要远优于其他模型,表明当前模型仍然对提示敏感。
对于图像问答任务,最新的开源模型,如INTERNVL-CHAT-1.5-24B和LLAVA-NEXT-34B,表现优于流行的专有模型,达到了最先进的性能,这一点也在最近的基准测试结果中得到证实[16]。值得注意的是,像INSTRUCTBLIP-7B和QwEN-VL这样的模型,在详细提示下的表现明显优于简洁提示。对于视频问答任务,论文还评估了较大或专有的图像问答模型,如GPT4V,通过将视频的四个帧拼接成一张图片。值得注意的是,VIDEO-LLAVA-7B在简洁提示下的表现远优于其他小型开源模型。
图6:模型在TASK-ME-ANYTHING-RANDOM上的性能表现,这是TASK-ME-ANYTHING中随机选取的任务子集
2.5.2 查询2:MLMs在哪些技能上表现最佳和最差?
论文分析了不同感知能力下的性能,以回答:所有模型在哪些技能上表现得好或差?论文分别对ImageQA和VideoQA任务进行了这项研究。论文发现,没有特定的技能在所有(图像和视频)模型中表现得最好或最差(图7)。论文观察到,所有模型在ImageQA任务中的空间推理、物体计数和3D属性理解方面都存在困难,而在VideoQA任务中的物体识别和时间理解方面也存在困难。它们在物体、属性和其他关系识别实例上表现良好。
令人惊讶的是,论文发现大多数MLMs在物体间的关系理解上表现最佳,如果不能完美得分,也能在交互关系如“骑乘”、“注视”、“躺在一旁”等方面获得高分。另一方面,这些模型在合成图像中的空间推理方面表现最差,尤其是在询问图像中“中间”、“底部”或“后面”(对于3D图像)部分的物体的问题上表现不佳。尽管如此,一些模型表现不同。例如,LLAVA-13B在识别3D属性方面表现最差,未能正确识别“最小”或“最近”的3D物体。与此同时,LLAVA-7B在物体识别方面表现最佳,而在关系理解方面表现最差,难以理解其他模型能够很好地执行的简单动作,如“触摸”。
此外,TAsK-ME-ANYTHING还使论文能够对模型的细粒度技能进行分析,例如识别特定类型的对象、属性或关系。例如,在ImageQA任务中,论文发现平均而言,模型在识别植物、理解情绪以及理解现实世界对象之间的空间关系方面表现更好(图9)。然而,某些模型可能展现出不同的优势:LLAVA-13B在识别动物方面表现更佳(图9(a)),而INSTRUCTBL1P-7B在理解情感关系方面更胜一筹(图9(O))。另一方面,在VideoQA任务中,论文了解到模型在识别车辆、材料以及理解空间关系方面表现更佳(图10和图11)。
2.5.3 查询3:哪种MLM最适合特定技能
LLAVA-13B在ImageQA任务中表现突出,除关系理解外,在所有技能上均取得最佳成绩;而VIDEO-LLAVA-7B则是VideoQA任务的总体赢家,在动作理解方面得分最高,在其他方面排名第二或第三。具体而言,论文发现LLAVA-13B在除关系理解外的所有技能上,相比其他多模态模型表现更为一致,其中QwEN-VL-CHAT在关系理解方面表现更佳(图7(a))。在VideoQA任务中,除了VIDEO-LLAVA-7B外,CHAT-UNIVI-7B也相对全面,在除属性理解外的所有技能上均位列前三(图7(b))。另一方面,尽管VIDEOCHAT2-7B在对象、属性和时间属性理解方面表现出色,但在动作和关系推理方面则稍显不足(图7(b))。
图7:图像和视频问答,高级技能,所有模型。论文绘制了模型在图像和视频问答任务中所有技能上的表现。论文发现模型在图像和视频问答中的物体和属性识别以及图像问答中的关系理解方面相对较好,但在其他方面仍面临挑战
图8:图像和视频问答,高级技能,开源与专有最佳模型。论文绘制了在图像问答和视频问答任务中,每项技能的最佳开源模型与专有模型的性能对比
2.5.4 查询4:在各项技能中,最佳开源模型与最佳专有模型相比如何?
此外,论文发现在图像问答任务中,最佳开源模型(在物体识别方面为LLAVA-NEXT-34B,关系理解方面为LLAVA-13B,其他方面为INTERNVL-CHAT-1.5-24B)
图9:ImageQA,细粒度技能,所有模型。论文还分析了模型在ImageQA任务上针对细粒度技能的表现,发现尽管不同模型之间存在差异,但平均而言,模型在识别植物、理解情绪以及理解现实世界物体之间的空间关系方面表现良好
图10:视频问答,细粒度对象及属性技能,所有模型。论文展示了模型在视频问答任务中针对细粒度技能的表现,并发现平均而言,模型在识别车辆和理解视频中的材料方面表现良好
图11:VideoQA,细粒度关系技能,所有模型。在VideoQA任务中,论文发现模型在平均水平上更擅长理解空间关系而非交互关系
其中,最佳开源模型在属性识别上与最佳专有模型(GPT4O)持平,甚至在计数和QwEN-VL-CHAT等方面表现更佳(图8)。值得注意的是,最佳开源模型在空间推理上领先最佳专有模型约8%,在3D属性上领先7%。在VideoQA任务中,最佳开源模型INTERNVL-CHAT-1.5-24B在物体和动作识别上超越了最佳专有模型QwEN-VL-MAX,但在属性、时间属性和关系理解上落后于专有模型5-10%。
2.5.5 查询5:小型模型与大型模型的对比如何?
论文也对具有相同技能的小型模型与大型模型的相对性能感兴趣。例如,在ImageQA任务中,论文观察到大型多模态模型在ImageQA任务上的整体表现优于小型模型(图12)。然而,这一发现对于个别模型可能并不总是成立。通过来自同一来源的小型和大型模型之间的t检验,论文发现一个例外:INSTRUCTBLIP-7B(u = 0.63)在关系理解上显著优于INSTRUCTBLIP-13B(pu = 0.49),p值< 1e - 5(图14)。
在VideoQA任务中,有趣的是,论文发现小型模型在平均水平上在VideoQA任务中击败了大型模型(图13)。论文推测这是因为论文在评估中包含了一些强大的小型视频模型。例如,论文看到VIDEO-LLAMA-2-7B在所有技能上的得分高于VIDEO-LLAMA-2-13B,p值< 3e - 5(图15),并且CHAT-UNIVI-7B在动作和关系理解上优于CHAT-UN1V1-13B,p值< 1e - 5(图16)。
图12:技能比较:小型模型与大型模型在ImageQA上的表现
图13:技能对比:小型与大型模型在视频问答上的表现
图14:技能对比:INSTRUCTBLIP-7B 与 INSTRUCTBLIP-13B
图15:技能比较:VIDEO-LLAMA-2-7B 与 VIDEO-LLAMA-2-13B
图16:技能对比:CHAT-UNIV1-7B vs. CHAT-UNIVI-13B
2.5.6 查询6:模型的优势和劣势在视觉输入上是否一致?
进一步地,论文好奇模型的强项和弱项在视觉输入上是否保持一致。为此,论文考察了模型在物体、属性、空间理解和计数等技能上的表现,这些技能涉及多种视觉输入任务,如2D和3D。论文发现,对于同一技能,模型在不同视觉输入下的排名大体保持一致(图17)。论文观察到,在同一技能下,不同视觉输入的模型准确度得分之间存在强相关性(斯皮尔曼系数为0.77-0.94),只有一个例外:视频模型在3D桌面任务中对物体理解的表现在场景图任务中的表现仅弱相关(系数=0.64)。这一发现表明,论文定义的技能与视觉输入是正交的,这使论文能够发现模型的固有优势和劣势。
图17展示了模型在处理视觉输入时针对每项技能的表现
2.5.7 查询7:当前流行的专有模型GPT40在哪些方面表现不佳?
最后,论文探讨了当前流行的专有模型GPT40的不足之处:GPT40在旋转/移动物体识别方面存在哪些缺陷?在理解关系方面有何不足?以及在识别物体属性方面有哪些弱点?为了回答这些问题,论文首先为每个问题确定任务生成器,这些生成器能够产生相关的任务以供评估。基于此,论文提供了GPT40在物体/关系/属性类别和个人识别方面的不足之处。需要注意的是,这些只是示例问题,TASK-ME-ANYTHING可以处理更多此类问题。
通过物体/关系/属性类别进行回答。首先,论文通过比较GPT40在不同粗粒度物体/关系/属性类别及其平均表现来回答这些问题,如图18所示。论文可以看到:1) GPT40在识别图像中的“交互性”关系和视频中的“空间关系”方面表现不佳;2) 识别旋转/移动的“家具”、“食物”和“植物”对GPT40来说比识别其他物体类别如“动物”和“车辆”更具挑战性;3) GPT40在识别“颜色”方面比其他属性表现更差。
图18:使用GPT4O在随机生成的任务实例上回答Q1-Q3,这些任务实例涉及粗粒度的对象/关系/属性类别
针对个体对象/关系/属性的回答。为了精确找出GPT4O在哪些具体的对象/关系/属性上表现不佳,论文将每个问题转化为关于个体对象/关系/属性的Top-K查询,并采用论文的Active方法进行查询结果的近似,预算为GPT4o调用次数。论文发现,在TASK-ME-ANYTHING发现的Top-s对象/关系/属性上,GPT40的性能大幅下降(-5%至-50%6),表明这些仍然对GPT4o构成挑战(表2)。此示例展示了如何利用TASK-ME-ANYTHING系统来定位模型在细粒度概念上的弱点。
表2:针对个体对象/关系/属性的Top-K查询回答Q1-Q3。论文还展示了与随机任务实例相比,GPT4o在涉及发现任务元素作为地面实况答案的任务实例上的性能下降(A Perf. (%)),并表明性能下降幅度很大
本文转载自 AI帝国,作者: 无影寺