这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

人工智能 新闻
对于大模型来说,许多现有的基准已经没有任何挑战性,也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现,显然打破了这个局面。

眼下最顶尖的一批 LMM 是哪些?你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……

但这些大模型,遇到一个名为「ZeroBench」的视觉基准之后,纷纷败下阵来。

20 多个知名模型,首次作答成绩如下,全部是零分:

震惊之后,我们仔细研究了这个 ZeroBench 基准里的问题。

对于大模型来说,许多现有的基准已经没有任何挑战性,也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现,显然打破了这个局面。

ZeroBench 包含 100 个具有挑战性的全新问题,具体多有挑战性呢?请听题:

第题:不用优惠,菜单上每款点一个,总共需要多少港币?

好家伙,这菜单上下颠倒就算了,还反光看不清字,让在其中找到每道菜的价格,再做加法,这不是为难我胖虎吗?

对于需要更多步骤才能得到答案的多模态模型来说,可能它也需要:「服务器繁忙,请稍后再试」。

问题 2:(i) 计算壶铃的总重量?(ii) 计算重量在 5 至 15 磅之间(含 5 磅和 15 磅)的哑铃总重量,单位为磅。(iii) 估计每个绿色壶铃的重量,单位为磅。

知识面不够宽,还真做不了这题。不光要算总重量,还得挑出绿色的,还得分类统计......

多模态模型见了这题都要暗地里蛐蛐:我连自己重多少斤都不知道,您这让我数哑铃?

问题 3:你正试图破解一个保险箱,需要一个 6 位数密码。根据失主留下的线索和物品,请推理出完整密码。

这是在考眼力,考数学,还是在拍《达芬奇密码》?

看来,ZeroBench 对多模态模型确实很高,不仅得明察秋毫,还得拥有福尔摩斯般的推理能力。

问题 4:在八方位指南针上,身体朝南的鹅占总数的百分比是多少?请精确到小数点后一位。

想要判断鹅的身体是否朝南,首先得知道这张图的南在哪边?接下来还需要考虑冬季夏季,南北半球,上午下午?

停停,在高中毕业之后,我就停止如此深度地使用自己的大脑了。

GPT-4o 做了这道题,分析了半天,最后摆烂了,让我们重新上传图片,「以便它从头开始处理。」可能它也要停下来发一句:鹅太南(难)了。

问题 5:

(1)现在是英国牛津的傍晚,这个时钟是根据物品使用方向来安装的。距离正午大约过去了多少小时?

(2)这个时钟是用一个八人赛艇队员的装备制成的,他的队伍使用标准装备。他可能坐在哪些座位?把座位号加起来等于多少?

(3)如果将图像水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度,时针最接近哪个整点?

(4)把前三个答案相乘等于多少?

「从这块只有指针的表判断距离正午的时间」、「表皮是由赛艇队员的装备做成的,他的座位号是多少?」,「水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度......」

如果说前几题查查资料,努努力还能写出来,现在已经来到连题目都读不懂的境地了。

看完这些题目,不难理解为什么它叫 ZeroBench —— 因为 AI 做完这些题后,自信可能就归零了!

想来出题人也是颇费了一番心思才能琢磨出如此刁钻的角度。ZeroBench 的研究团队组织了一个 20 多人的专家出题组,每道题都是手工高定。

由于很难事先知道一个问题对多模态模型来说有多难,因此在开发过程中,出题人还会拿最新、最好的模型来「试水」。发现题目太简单就加料,发现还能做出来就继续加料,直到调节到「难度适中」。

ZeroBench 概述

项目主页: https://zerobench.github.io/

论文地址:  https://arxiv.org/pdf/2502.09696

数据集构建

伴随着大模型能力的不断进化,想要创建一个难度足够高的问题集越来越难。

ZeroBench 中的每个问题是由 20 多位人类问题创建者手工定制的。为了增加问题的多样性,对问题创建者的指导还是比较宽泛的:(1)包含对回答问题至关重要的困难视觉元素,(2)包含多步骤推理,(3)尽可能具有挑战性。

由于很难事先知道一个问题对 LMM 来说有多难,因此在开发过程中,研究者鼓励问题创建者在一些前沿模型上对候选问题进行评估,衡量其难度并相应地调整问题。

在获得了 140 个候选问题后,研究者使用了以下由 4 个部分组成的筛选流程,最终选出了 100 个问题用于 ZeroBench:

  • 反馈。对候选问题进行筛选,必要时通过反复审查和反馈进行改进。
  • 初步评估。为了衡量难度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)对问题进行了初步评估。
  • 审查。在初步评估的基础上,对每个候选问题都进行了全面审查,以确保这些问题可以回答、格式和注释正确、难度足够且简明扼要。审查人员的分配确保了出题者不会审查到自己的试题。许多试题也被修改了,旨在增加难度。此外,为了降低正确答案被猜中的可能性,必要时还对问题进行了修改,以确保答案范围足够广泛。这就排除了二进制、多项选择或答案为小整数(即小于 10)的问题。不符合要求的问题都被过滤掉了,因此第一次就有了 106 个合适的问题。
  • 对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 分。有些问题只有一个相对较弱的模型能正确回答。研究者认为这是一种将问题分布与当前模型能力相联系的有效方法。

经过反复推敲,研究者最终确定了共 100 个问题。为了在评估过程中区分模型性能,他们在审查过程中为每个问题创建了一个或多个子问题。子问题(图 6)由明确的问题子部分、自然推理步骤或与得出最终答案相关的其他数量生成。

统计

表 1 显示了 ZeroBench 的核心统计数据,其中包括 100 个主问题和 334 个子问题,在单幅和多幅图像设置中包含自然图像和合成图像。

如图 4 所示,主问题的文本长度分布广泛,最长可达 2k 字符;在子问题中,短问题的比例明显较高。问题中图片的平均大小(图 5)分布较为均匀。ZeroBench 中的问题以难度为优先考虑因素,大多数问题都包含多个步骤,需要不同的视觉能力。同样,问题的背景也往往是混合的,需要不同领域的知识。因此,为每个问题或子问题指定不同的类别是不可行的。

评估

研究者在 ZeroBench 主问题和子问题上对 20 个 LMM 进行了评估,结果见表 2。从中可以得出几个结论:

对于当下 LMM 的水准而言,ZeroBench 是不可能挑战成功的。在可重现的环境中,研究者发现所有模型在该基准测试中都只有 0% 的及格率。

有些问题是可以回答的,大多数模型的得分都不是零。表现最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分达到了 7%(正确回答 7 个问题);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表现也相对较好,正确回答了 3 个问题。

子问题区分开了模型的性能。这部分问题对模型的挑战性较小,所有模型的得分都不为零。虽然与主问题相比,推理模型的难度要低得多,但总体而言,这些模型仍然难以正确回答这些小问题,其中绝大多数都太难了。推理模型在推理过程中通常会产生一个扩展的思维链,允许它们在得出最终解决方案之前探索多种路径。然而,在 ZeroBench 上,此类模型与传统模型相比似乎并无明显优势。

在主问题上,开放源代码和封闭源代码模型的表现仍然很差,没有明显的区别。不过,通过比较子问题的得分,可以发现两者的性能差距很大,领先的开源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 个百分点。

错误分析

图 7 展示了在 ZeroBench 子问题中经常出现的视觉解读错误,例如错误地计算物体数量、无法「看到」细微细节或准确提取信息,以及难以理解空间关系。更多例子可参考附录。

责任编辑:张燕妮 来源: 机器之心
相关推荐

2024-06-28 18:13:05

2024-06-27 12:45:30

2024-05-20 08:20:00

OpenAI模型

2024-06-12 11:50:23

2025-01-02 11:01:45

2024-10-06 09:00:00

AI训练数据

2024-05-14 11:29:15

2024-12-19 09:00:00

模型数学训练

2024-08-30 14:35:00

2023-07-23 18:55:20

ChatGPTGPT-4

2024-09-06 13:00:29

2024-07-11 11:53:56

2024-05-21 12:23:17

2024-06-17 18:06:17

2024-06-05 08:29:35

2024-12-18 13:24:30

谷歌AI大语言模型

2024-07-16 13:24:38

2024-06-05 13:09:26

2024-05-15 17:34:15

2024-08-08 13:04:28

点赞
收藏

51CTO技术栈公众号