多模态大语言模型的空间智能探秘:突破与挑战
人们在日常生活中需要视觉空间智能来处理空间信息,但多模态大语言模型在这方面的能力尚未得到充分研究。本文构建了 VSI - Bench 基准测试,对模型进行评估和分析,有助于了解模型的优势和不足,为提升模型的视觉空间智能提供方向,推动相关领域发展,如机器人、自动驾驶和 AR/VR 等,使模型能更好地应用于实际场景。
本文围绕多模态大语言模型(MLLMs)的视觉空间智能展开研究。首先介绍了视觉空间智能的概念及相关能力分类,接着提出了包含 5000 多个问答对的 VSI - Bench 基准,涵盖多种类型任务及不同场景视频。通过对 15 个模型的评估,发现 MLLMs 虽有一定视觉空间智能但低于人类,空间推理是其性能瓶颈,传统语言推理技术效果不佳,而生成认知地图可提升空间距离能力。
摘要&解读
人类拥有从连续的视觉观察中记住空间的视觉空间智能。然而,在百万规模视频数据集上训练的多模态大语言模型(MLLMs)能否也从视频中“在空间中思考”呢?我们提出了一个新的基于视频的视觉空间智能基准(VSI - Bench),包含超过5000个问答对,并发现MLLMs展现出了具有竞争力的——尽管低于人类的——视觉空间智能。我们通过语言和视觉方式探究模型如何表达它们在空间中的思考,并发现虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈,但局部世界模型和空间感知确实在这些模型中出现了。值得注意的是,流行的语言推理技术(例如,思维链、自一致性、思维树)未能提高性能,而在问答过程中明确生成认知地图则增强了MLLMs的空间距离能力。
- 研究背景:随着多模态大语言模型(MLLMs)在语言智能方面取得进展,其视觉空间智能的研究相对不足,尽管该能力在机器人、自动驾驶和 AR/VR 等领域具有重要性。以往的空间智能测试多关注纸笔任务或 2D 图像、纯语言方面的理解,缺乏基于真实视频对 MLLMs 视觉空间智能的有效评估。
- 研究贡献:
a.提出了新的基于视频的视觉空间智能基准 VSI - Bench,包含丰富多样的任务和真实场景视频数据,能全面评估 MLLMs 的视觉空间智能。
b.通过语言和视觉两种方式探究 MLLMs 在空间中的思考过程,发现了其空间推理能力的瓶颈以及局部世界模型和空间感知的存在。
c.证明了在问答过程中明确生成认知地图可增强 MLLMs 的空间距离能力,为提升模型性能提供了新的方向。
- 实现设计:
a.数据收集与处理:整合 ScanNet、ScanNet++和 ARKitScenes 等数据集,统一数据格式,包括视频处理、元信息提取和类别筛选等步骤,为基准构建提供数据基础。
b.问答对生成:基于统一的元信息和精心设计的问题模板自动生成大部分问答对,并对路线规划任务进行人工注释,同时设计了严格的质量审查流程,确保数据质量。
c.模型评估设置:选择 15 个涵盖不同模型家族和规模的 MLLMs,采用零样本设置和贪婪解码,根据答案类型设计了合适的评估指标(如 MCA 任务用准确率,NA 任务用平均相对准确率),并设定了机会水平基线和人类水平性能参考。
- 实验结果:
a.人类在基准测试中平均准确率达 79%,远超 MLLMs。专有模型 Gemini1.5 Pro 表现较好但仍有差距,开源模型中部分表现出竞争力,但多数低于机会水平基线。
b.空间推理是 MLLMs 性能的主要瓶颈,约 71%的错误源于此,而传统语言推理技术如思维链、自一致性和思维树等在基准上反而导致性能下降。
c.MLLMs 在记忆空间时形成局部世界模型,在定位相邻物体的认知地图中准确率达 64%,但随距离增加准确性下降;使用认知地图可使相对距离任务准确率提高 10%,使用真实认知地图比基线有 20% - 32%的增益。
1. 引言
在购买家具时,我们经常会试着回忆起客厅的样子,以想象想要的柜子是否合适。估计距离是困难的,但即使只看过一次,人类也能在脑海中重构空间,回忆起房间里的物体、它们的位置和大小。我们生活在一个充满感官信息的三维世界中,视觉信号围绕着我们并为我们提供基础,使我们能够感知、理解并与之互动。
图1:无论是在家中、工作场所还是其他地方,感知空间、记住其布局并按需检索这些空间信息以回答问题的能力是视觉空间智能的一个关键方面。最近的多模态大语言模型(MLLMs)能够理解一般视频,但当面对环境的视频记录时,它们能“在空间中思考”吗?它们能否构建一个准确的、隐性的“认知地图”,从而使它们能够回答关于空间的问题?使用MLLMs增强空间智能的优势和局限性是什么?我们通过为MLLMs设置视频数据、构建视觉问答(VQA)基准来检查它们的回忆,并检查MLLMs实际记住和理解的内容来深入研究这些问题。
视觉空间智能需要感知和在心理上操纵空间关系[26];它需要多种能力,包括关系推理以及在自我中心和非自我中心视角之间转换的能力(见第2节)。虽然大语言模型(LLMs)[3, 6, 9, 35, 59, 65, 66, 75, 79, 80, 85, 100]已经提高了语言智能,但视觉空间智能尽管与机器人技术[7, 8, 21, 62]、自动驾驶[77]和增强现实/虚拟现实(AR/VR)[12, 27, 53]相关,但仍未得到充分探索。
多模态大语言模型(MLLMs)[1, 4, 15, 33, 41, 47, 47, 76]整合了语言和视觉,在开放式对话和实际任务(如网络智能体[21, 28, 32, 34])中表现出强大的思考和推理能力。为了在视觉空间领域提升这种智能,我们引入了VSI - Bench,这是一个基于视频的基准,包含来自近290个真实室内场景视频的超过5000个问答对(见第3节)。视频数据通过捕捉连续的时间输入,既类似于我们观察世界的方式,又能实现比静态图像更丰富的空间理解和推理。在VSI - Bench上评估开源和闭源模型表明,尽管模型和人类之间存在很大的性能差距,但MLLMs在视频理解、文本理解和空间推理等挑战下仍展现出了新兴的视觉空间智能(见第4节)。
为了分析模型行为,并受到双重编码理论[18]的启发——该理论认为语言和视觉处理是不同但互补的,我们提示选定的模型进行自我解释(语言方面)和生成认知地图(视觉方面)。对自我解释的分析表明,与视觉感知、语言智能或时间处理相比,空间推理是VSI - Bench上性能不佳的主要因素(见第5节)。“认知地图”代表环境的内部布局[60, 78],使我们能够评估MLLMs的隐性空间世界模型,并发现MLLMs构建了强大的局部模型,但全局模型较弱(见第6节)。此外,标准的语言推理技术未能提高我们基准测试的性能。然而,明确生成和使用认知地图可以提高空间距离问答的能力。
即使对于人类来说,表达视觉空间智能也是困难的(而且通常是零碎的)[26]。通过这项工作,我们旨在鼓励社区探索为前沿模型赋予视觉空间智能,并为这个方向铺平道路并提供启示。
2. 视觉空间智能
我们讨论视觉空间智能的预备知识和范围,为后续分析提供背景和框架。
- 术语使用:我们使用“智能”而不是“认知”,因为它的范围更广,并且“空间认知”是认知心理学的一个分支[81]。在我们的工作中,我们在“空间智能”前加上“视觉”,因为空间智能的存在与感官模式无关(例如,盲人可以通过其他感官感知空间)[26]。鉴于我们专注于视频输入,我们讨论视觉空间智能。
- 研究范围:虽然经典的空间智能测试也包括纸笔任务,如心理旋转测试[72],但我们的重点是适用于现实世界环境的视觉空间智能,特别是在家庭、办公室和工厂等常见空间中。
- 分类:基于认知心理学[11, 26, 55, 60]和我们在第3节中的基准任务的人类经验,我们提供了视觉空间智能可能需要的能力分类(图2)。视觉感知、语言智能、时间处理和空间推理是VSI - Bench所需的四个领域。例如,[11]表明视觉对象和空间处理在神经上是不同的,这促使将“视觉感知”和“空间推理”作为独立的领域。我们将空间推理分为两个广泛的能力:关系推理和自我中心 - 非自我中心转换。
关系推理是通过距离和方向识别物体之间关系的能力。它还包括依靠关于其他物体大小的视觉空间常识来推断物体之间的距离。例如,知道一个标准饮料罐大约12厘米高,人类可以通过比较视觉比例来估计其他物体的大小。
自我中心 - 非自我中心转换涉及在以自我为中心(自我中心)的视图和以环境为中心(非自我中心)的视图之间切换。在我们的设置中,每个自我中心视频帧都映射到非自我中心的物体位置和相机轨迹。当人类观察空间时,他们将自我中心的感知转换为非自我中心的心理地图,从而能够从不同的视角进行观察——这对于相对方向或路线规划等任务至关重要。这种转换依赖于新视角的可视化和视觉空间工作记忆[2],即保持和操作空间信息的能力,例如通过从新的自我中心输入更新物体位置[20, 54]。
VSI - Bench中的每个任务都需要感知、语言和时间能力以及不同程度的空间推理。例如,对于路线规划任务,自我中心 - 非自我中心转换比物体大小估计重要得多。这些因素为视觉空间智能的复杂性提供了一些背景信息。
3. VSI - Bench
3.1. 概述
我们引入VSI - Bench来从自我中心视频中定量评估MLLMs的视觉空间智能。VSI - Bench由来自288个真实视频的超过5000个问答对组成。这些视频来自公共室内3D场景重建数据集ScanNet[19]、ScanNet++[94]和ARKitScenes[5]的验证集,代表了不同的环境——包括住宅空间、专业环境(如办公室、实验室)和工业空间(如工厂)——以及多个地理区域。重新利用这些现有的3D重建和理解数据集提供了准确的对象级注释,我们在问题生成中使用这些注释,并可能有助于未来研究MLLMs与3D重建之间的联系。VSI - Bench质量很高,经过了迭代审查,以尽量减少问题的模糊性并去除从源数据集中传播的错误注释。
VSI - Bench包括三种类型的八个任务:配置、测量估计和时空。配置任务(物体计数、相对距离、相对方向、路线规划)测试模型对空间配置的理解,对人类来说更直观(见第4节中MLLM和人类性能的比较)。测量估计(物体大小、房间大小和绝对距离)对任何具身智能体都有价值。虽然对人类和模型来说,精确预测测量值都非常困难,但更好的距离和其他测量的感知直观上与更好的视觉空间智能相关,并支持许多需要空间意识的任务,如与物体的交互和导航。时空任务如出现顺序测试模型对视频中所见空间的记忆。图3展示了VSI - Bench任务的概述,图5展示了数据集的统计信息。
3.2. 基准构建
我们开发了一个复杂的基准构建管道,以有效地大规模生成高质量的问答(QA)对,如图4所示。
- 数据收集和统一:我们通过将各种数据集标准化为统一的元信息结构来开始数据集构建,确保与数据集无关的QA对生成。我们的基准汇总了现有的3D室内场景理解和重建数据集:ScanNet[19]、ScanNet++[94]和ARKitScenes[5]。这些数据集提供了能够进行空间重建的高保真视频扫描,确保MLLMs仅通过视频输入就能回答空间级别的问题。此外,它们的对象级3D注释有助于我们生成问题。我们将数据集解析为统一的元信息格式,包括对象类别、边界框、视频规格(分辨率和帧率)等。
- 问答生成:QA对主要使用元信息和问题模板自动注释;路线规划任务是人工注释的。我们为每个任务精心设计和完善了问题模板,并为人工注释者提供了指导方针。有关更详细的设计,请参见附录B.1。
- 人工参与的质量审查:尽管使用了人工注释的数据源和精心设计的QA生成方法,但某些模糊性和错误不可避免地仍然存在,主要是由于源数据集中固有的注释错误。我们在整个基准构建过程中实施了人工参与的验证协议。这种迭代的质量保证是双向的:当评估者标记出模糊或错误的问题时,我们追溯错误来源并删除有问题的数据样本或相应地修改元信息、问题模板或QA生成规则,以纠正来自同一来源的其他错误问题。在每次人工审查周期后,我们更新和迭代基准,直到它满足我们的质量标准。
4. 在VSI - Bench上的评估
4.1. 评估设置
- 基准模型:我们全面评估了来自不同模型家族的15个支持视频的MLLMs,涵盖了各种参数规模和训练方法。对于专有模型,我们考虑Gemini1.5[76]和GPT - 4o[33]。对于开源模型,我们评估了来自InternVL2[14]、ViLA[44]、LongViLA[88]、LongVA[98]、LLaVA - OneVision[39]和LLaVA - NeXT - Video[99]的模型。所有评估均在零样本设置下进行,并使用每个模型的默认提示。为确保可重复性,我们对所有模型使用贪婪解码。
MRA为计算数字预测与真实值之间的相似度提供了更可靠和有区分度的测量方法。
- 机会水平基线:我们提供了两个基线:
- 机会水平(随机)是MCA任务的随机选择准确率(不适用于NA任务)。
- 机会水平(频率)表示MLLMs通过总是为每个任务选择最频繁的答案所能达到的最高性能。这确定了由于固有长尾答案或不平衡多项选择分布可能导致的性能提升。
- 人类水平性能:我们随机抽取400个问题(每个任务50个)的子集,我们将其称为VSI - Bench(tiny)。人类评估者独立回答每个问题,并使用上述指标评估他们的表现。为了进行比较,我们还报告了Gemini1.5 Pro在VSI - Bench(tiny)上的表现。有关评估设置的详细信息,请参见附录C。
4.2. 主要结果
表1展示了模型在VSI - Bench上的整体表现。我们的主要观察结果如下:
- 人类水平性能:不出所料,人类评估者在我们的基准测试中平均准确率达到79%,比表现最好的模型高出33%。值得注意的是,人类在配置和时空任务上的表现非常高,从94%到100%不等,这表明人类的直观性。相比之下,在需要精确估计绝对距离或大小的三个测量任务上,人类和表现最好的MLLM之间的性能差距要小得多,这表明MLLMs在需要定量估计的任务中可能具有相对优势。
- 专有MLLMs:尽管与人类存在显著的性能差距,但领先的专有模型Gemini1.5 Pro取得了有竞争力的结果。它大大超过了机会水平基线,并在绝对距离和房间大小估计等任务中接近人类水平的表现。值得注意的是,虽然人类评估者在空间理解物理世界方面有多年的经验,但MLLMs仅在互联网视频等二维数字数据上进行训练。
- 开源MLLMs:顶级开源模型如LLaVA - NeXT - Video - 72B和LLaVA - OneVision - 72B表现出与闭源模型高度竞争的性能,仅比领先的Gemini1.5 Pro落后4%到5%。然而,大多数开源模型(12个中的7个)的表现低于机会水平基线,这表明它们的视觉空间智能存在显著局限性。
盲评:我们比较了MLLMs的性能与“机会水平(频率)”和“无视觉(blind)”结果,使用了六个最强模型(3个开源和3个闭源)的平均值。如图6所示,“启用 - 禁用”的持续改进和“禁用 - 机会”的普遍下降表明,视频对我们的VSI - Bench是必要且有益的,盲模型的表现低于机会水平。同时,无论是否启用视觉,MLLMs在绝对距离估计、路线规划和相对方向任务上都难以超越机会水平,这凸显了这些任务的难度。需要注意的是,在物体大小方面,“无视觉”模型已经明显优于机会水平,这可能是由于在语言模型训练期间学到的常识知识。
5. MLLMs在空间中的语言思考方式
为了更好地理解模型何时以及为何成功或失败,并阐明它们所具备的视觉空间智能的方面,我们在这里从语言角度以及在第6节从视觉角度研究MLLMs在空间中的思考方式。我们首先提示在VSI - Bench中表现最好的MLLM,Gemini1.5 Pro[76],用语言表达其内部推理过程。
5.1. 通过自我解释进行探究
自我解释是一种与传统模型解释(如LIME显著图[69])相当的流行方法,用于理解LLM生成的响应[25, 31, 51],并广泛用于分析语言模型行为[64, 96]。我们随机抽取了163个错误答案的子集,提示MLLM为预测答案提供解释,并手动仔细审查这些解释。
- 案例研究:图7展示了一个成功案例和一个错误案例的自我解释。在这两个例子中,当在空间中思考时,MLLM表现出了先进的视频理解能力,其时间戳描述的准确性令人印象深刻。该模型还形成了正确的逐步推理过程,为相对方向任务概述了“确定自身方向”、“定位洗碗机”和“可视化象限”等步骤。此外,全局坐标系的构建(图 7,左)表明 MLLMs 可能拥有或构建了一个隐性的世界模型。MLLM 并非使用孤立的帧、短片段或随机猜测,而是利用全局空间上下文和推理来正确推断。
在错误示例(图 7,右)中,我们可以识别出诸如自我中心 - 非自我中心转换和关系推理等有缺陷的视觉空间能力,如在图 2 中所介绍的。在视频中,相机向右平移,将视角从床边转移到墙壁和窗户。模型遵循这个自我中心视角,回答说“要面向窗户所在的墙壁,必须向右转”,而不是创建一个反映从门到床的路线实际需要向左转的非自我中心视角。
- 错误分析:为了量化并确定在我们的基准测试中表现最佳的 MLLM 的主要瓶颈,我们分析了它在 VSI - Bench(tiny)上的错误,将它们分为四种不同类型,这些类型源于我们概述的视觉空间能力(图 2)以及在检查时对错误的明确四类分类:
- 视觉感知错误,源于未识别的对象或错误分类的对象类别;
- 语言智能错误,由逻辑、数学推理或语言理解缺陷引起;
- 关系推理错误包括空间关系推理中的错误,即距离、方向和大小;
- 自我中心 - 非自我中心转换错误,源于错误的非自我中心空间布局或不恰当的视角转换。
如图 8 所示,大约 71%的错误归因于空间推理(如在图 2 中的本体概念),这表明:
空间推理是 MLLM 在 VSI - Bench 上性能的主要瓶颈。
进一步的分析和案例研究见附录 E.2。
5.2. 思维链方法在视觉空间任务中的局限性
提示技术提高了大型模型在各种任务中的推理和问题解决能力[32, 34, 73, 82]。它们的成功促使我们研究这些语言提示方法是否也能提高 MLLMs 在 VSI - Bench 中的视觉空间能力。我们研究了三种流行的提示技术(更多细节见附录 B.3):
- 零样本思维链(CoT)。遵循[37, 86],我们在提示中添加“让我们逐步思考”。
- 带有 CoT 的自一致性。我们遵循[84],将 MLLM 的温度设置为 1.0 以鼓励多样化推理,然后将五次运行(与零样本 CoT 一起使用)中的多数共识作为最终预测。
- 思维树(ToT)。遵循[92]中的“创意写作”实践,我们将推理分为计划生成和答案预测。MLLM 首先起草并选择一个计划,然后生成三个候选答案并选择最自信的一个作为预测。
如图 9 所示,令人惊讶的是,所有三种语言推理技术都导致了 VSI - Bench 上的性能下降。零样本 CoT 和 ToT 使平均性能降低了约 4%,而自一致性虽然略好,但仍比无提示基线低 1.1%。外观顺序和绝对距离估计任务的单方面改进很容易解释,因为它们在语言智能错误中占很大比例(见图 8)。相比之下,房间大小和物体大小任务有 8%到 21%的大幅下降,这表明鼓励模型更多地思考不仅不可靠,而且可能有害。同时,如表 2 所示,零样本 CoT 在通用视频理解基准 VideoMME[24]上实现了 1.6%的改进。因此,我们的结果表明:
语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理有害。
6. MLLMs在空间中的视觉思考方式
由于人类在进行空间推理时会下意识地构建空间的心理表征[58, 78],我们探索 MLLMs 如何记忆空间。
6.1. 通过认知地图进行探究
我们提示 MLLMs 使用认知地图来表达它们对所看到空间的内部表征,认知地图是一种在特定环境中记忆物体的成熟框架[60, 78]。我们提示表现最佳的 MLLM,Gemini1.5 Pro,根据视频输入在一个 10×10 的网格中预测物体中心位置(见图 11b 关于网格大小的消融实验和附录 B.4 中的提示)。我们在图 10 中展示了生成的认知地图的示例。
为了定量评估这些认知地图,我们评估了每个地图中所有对象对之间的欧几里得距离。如果两个对象在网格上的距离与真实认知地图中的距离偏差不超过一个网格单元,我们就认为该距离是正确的。如图 11 所示,我们将地图距离分为八个不同的区间进行分析。有趣的是,我们发现 MLLM 在其认知地图中定位相邻对象的准确率达到了 64%,这表明它具有较强的局部空间意识。然而,随着两个对象之间距离的增加,这种准确率显著下降,这表明:
当记忆空间时,MLLM 从给定视频中在其脑海中形成一系列局部世界模型,而不是一个统一的全局模型。
这一观察结果与从离散视频帧形成全局空间表示的挑战相一致,这对 MLLMs 来说本身就是困难的。虽然这对人类来说可能也不是一件容易的事,但他们可能能够更准确地构建这样的全局空间表示。
6.2. 通过认知地图更好地进行距离推理
鉴于 MLLMs 在记忆空间时的局部意识(见图 10 和图 11)以及心理意象对人类空间思维的重要性,我们研究生成和使用认知地图是否可以帮助 MLLMs 在 VSI - Bench 的相对距离任务中进行空间推理。这测试了通过认知地图产生的局部距离意识是否能转化为更好的距离回忆和推理。
我们提示 Gemini1.5 Pro 首先根据给定的视频和问题生成一个认知地图,然后使用预测的地图来回答问题。如表 3a 所示,我们发现使用心理意象使 MLLM 的相对距离准确率提高了 10%。使用真实认知地图比基线提高 20%到 32%的增益凸显了构建场景准确心理地图的重要性,这强制了全局一致的拓扑结构,但也表明这种心理意象只是难题的一部分,尽管是关键的一部分。这些结果表明构建一个心理空间世界模型或认知地图作为 MLLMs 解决视觉空间推理的有价值的前置任务或有前途的解决方案。
7. 相关工作
除了第 2 节中的视觉空间智能,我们还在以下两个相关领域为我们的工作奠定基础:
- 具有视觉空间意识的 MLLMs:基于 LLMs[3, 9, 65, 66, 75, 79, 80]强大的语言和推理能力以及现代视觉编码器[29, 63, 67]的特征提取能力,MLLMs,尤其是视觉 MLLMs,展现出了前所未有的视觉理解能力[33, 39, 76, 83, 88, 99],这是朝着开发世界模型[48]和具身智能体[17, 21, 36, 57]的有前途的方向。然而,将 MLLMs 基于现实世界对模型的视觉空间智能提出了重大挑战,促使了最近的努力[10, 13, 16, 40, 46, 91, 102]。与先前主要关注通过 2D 图像[68, 74, 90]或仅通过语言[56, 70, 87, 87, 89]理解空间信息的工作不同,我们的工作使用真实世界视频评估模型的视觉空间智能,这更紧密地反映了人类对世界的理解和具身智能体的应用场景。
- 在视频上对 MLLMs 进行基准测试:随着 MLLMs 在静止图像的感知、推理和多学科任务中表现出令人印象深刻的性能[38, 50, 95, 96],人们越来越关注评估 MLLMs 的视频理解能力[23, 24, 42, 43, 49, 52, 53, 61, 93]。例如,Video - MME[24]全面评估了 MLLMs 在各种视频相关任务中的表现,包括识别和感知。EgoSchema[53]和 OpenEQA[62]使用自我中心视频评估 MLLMs 的理解能力。尽管它们很重要,但大多数先前的工作都集中在内容级别的理解[24, 42, 53, 61],这主要是 2D 图像理解的时间扩展,没有考虑 3D 空间。超越先前的基准,我们的工作建立了一个测试平台,使用视频作为理解现实世界的接口,评估基于 3D 视频的模型视觉空间智能。
8. 讨论与未来工作
我们通过构建 VSI - Bench 并研究 MLLMs 在其上的性能和行为来研究模型如何观察、记忆和回忆空间。我们对 MLLMs 在空间中的语言和视觉思考方式的分析确定了视觉空间智能的现有优势(例如,突出的感知、时间和语言能力)和瓶颈(例如,自我中心 - 非自我中心转换和关系推理)。虽然流行的语言提示方法未能提高空间推理能力,但构建明确的认知地图确实增强了 MLLMs 的空间距离推理能力。未来的改进途径包括特定任务的微调、开发用于空间推理的自监督学习目标或为 MLLMs 定制的视觉空间提示技术。
参考资料
- 标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
- 作者:Jihan Yang¹* Shusheng Yang¹∗ Anjali W. Gupta¹∗ Rilyn Han²∗ Li Fei-Fei³ Saining Xie¹
- 单位:1纽约大学 2耶鲁大学 3斯坦福大学
- 标签:多模态大语言模型、视觉空间智能、人工智能、基准测试
- 概述: 本文主要研究多模态大语言模型(MLLMs)的视觉空间智能,通过构建 VSI - Bench 基准测试,分析 MLLMs 在其中的表现、思考方式及能力瓶颈,并探讨了提升其视觉空间智能的方法。
- 链接:https://arxiv.org/pdf/2412.14171
本文转载自 旺知识,作者: 旺知识