港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic）原创

发布于 2024-7-1 13:08

浏览

0收藏

摘要：视觉定位是将用户提供的文本查询与图像中特定区域链接起来的基本工具。尽管视觉定位模型取得了一定进展，但它们在理解复杂查询方面的能力仍然有限。为了解决这一限制，我们引入了LLM-Optic，这是一种创新方法，利用大型语言模型（LLM）作为光学透镜来增强现有视觉定位模型对涉及复杂文本结构、多对象或对象空间关系的复杂文本查询的理解能力——这些情况是当前模型难以应对的。LLM-Optic首先使用LLM作为文本定位器来解释复杂的文本查询，并准确识别用户意图定位的对象。然后，利用预训练的视觉定位模型，根据文本定位器优化后的查询生成候选的边界框。接下来，LLM-Optic通过数值标记对候选边界框进行注释，以在文本和特定图像区域之间建立连接，从而链接两种不同的模态。最后，利用大型多模态模型（LMM）作为视觉定位器，选择与原始文本查询最匹配的标记候选对象。通过LLM-Optic，我们实现了通用视觉定位，能够检测由任意人类语言输入指定的任意对象。重要的是，我们的方法无需额外的训练或微调即可实现这一增强。大量不同挑战基准上的实验表明，LLM-Optic实现了最先进的零样本视觉定位能力。项目页面：[https://haoyu-zhao.github.io/LLM-Optic.github.io/](https://haoyu-zhao.github.io/LLM-Optic.github.io/)。

1 引言

视觉定位是计算机视觉中的一项关键任务，是多个领域如自动驾驶【1, 2】、机器人技术【3】、无人机导航【4, 5】的基础。先驱性的研究【6-12】对这一任务进行了广泛探索，推动了持续的进步。值得注意的是，Grounding DINO【6】表现出色，达到了最先进的结果。Grounding DINO是一种强大的开放词汇对象检测模型，其性能优越，能够处理自由形式的文本输入查询。这一能力源于其在多个阶段实现了视觉和语言模态的融合。然而，尽管Grounding DINO取得了显著成就，但在完全理解复杂输入文本查询方面仍面临挑战。在各种场景中，其局限性显而易见：(1) 它在处理复杂句子结构时表现困难，误解语义信息，如图1(A)所示，将“me find my printer”错误地分类为对象标签；(2) 在涉及多个对象的查询中存在困难，常常无法区分主要对象及其地标，从而无法进行精确定位，如图1(B)所示，它错误地检测到了查询中提到的所有对象，但忽略了主要关注的对象；(3) 它错误解释了空间关系，如图1(C)所示。这些局限性凸显了视觉定位的复杂性，表明需要进一步的改进。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

图1：LLM-Optic通过整合大型语言模型（LLM）的推理能力，增强了领先的视觉定位模型Grounding DINO的能力，从而在任何给定查询中实现了更高的视觉定位准确性。具体而言，Grounding DINO在以下方面存在局限：(1) 在处理复杂句子结构时表现困难，如查询(A)所示；(2) 在涉及多个对象的查询中面临挑战，常常无法区分主要对象及其地标，从而无法进行精确定位（查询(B)）；(3) 错误解释空间关系（查询(C)）。然而，我们的框架有效地解决了这些问题。

Grounding DINO表现出这些局限性的主要原因可能在于其使用BERT【13】作为文本编码器。BERT主要通过两个任务进行预训练：掩码语言建模（MLM）和下一个句子预测（NSP）。尽管这些任务有助于学习基本的语言结构，但不足以捕捉更复杂的语言现象和上下文关系的细微差别。相反，大型语言模型（LLM）在自然语言理解方面表现出卓越的能力。LLM通常在更广泛的任务和显著更大的数据集上进行预训练，这些数据集涵盖了复杂的文本生成和理解任务。这种广泛的训练使得它们能够更深入地理解复杂的语义关系和上下文变化，从而增强其解释和响应复杂查询的能力。大型多模态模型（LMM），也称为多模态大型语言模型（MM-LLM），是LLM的扩展，结合了图像和文本模态。在语言理解能力方面，它们优于像Grounding DINO这样的模型。然而，目前LMM在视觉定位方面存在局限，常常无法为复杂的定位查询生成精确的边界框。为了提升LMM在视觉语言任务如视觉定位中的表现，当前的方法【14-16】涉及对现有的大模型进行训练或微调。这个过程需要大量的训练数据、显著的计算资源和大量的训练时间。

在这项工作中，我们介绍了LLM-Optic，一种简单但有效的解决方案，通过整合大型语言模型的推理能力，增强现有的开放词汇对象检测模型，而无需额外的训练或微调。它有效地解决了现有模型在解释复杂文本查询时遇到的挑战。此外，LLM-Optic超越了通常与专用模型相关的限制，这些模型通常仅限于定义狭窄的任务和特定的输出格式。它实现了通用视觉定位，能够基于各种描述识别任意数量的对象，并且能够处理描述对象在图像中不存在的情况，显著增强了视觉定位在各种场景中的适用范围，实现了与人类一样的稳健性。该框架在零样本设置中在视觉定位基准中达到了最先进的准确性，在所有评估的数据集中都表现出改进，其中在RefCOCOg【17】验证集中的最高增幅达到了22%。

LLM-Optic主要由三个模块组成：基于LLM的文本定位器、候选位置设置和标记模块，以及基于LMM的视觉定位器。最初，LLM作为文本定位器，处理复杂的文本查询以确定文本背后的真实意图。文本定位器的输出然后传递到候选位置设置和标记模块。在该模块中，文本定位器的输出，即对目标的简单但精确的描述，被传递到一个预训练的开放词汇对象检测模型。该模型负责为可能对应描述的候选对象生成边界框。每个边界框都用数字标识符进行清晰标记。随后，带有标记边界框的图像以及原始查询文本由视觉定位器处理。在这里，一个LMM确定哪些标记的对象准确地对应于查询文本描述。我们的框架的模块化架构使我们能够无缝地整合最新的进展，并在该领域保持领先地位。

总之，我们的贡献可以总结为：

- 我们提出了LLM-Optic，一个简单但高效且完全模块化的框架，通过三个基本组件增强了视觉定位模型的能力：基于LLM的文本定位器，分析文本查询中的潜在意图；候选位置设置和标记模块，负责生成潜在目标边界框并通过标记在文本和对应的图像区域之间建立连接；以及基于LMM的视觉定位器，精确识别图像中查询描述的对象。我们的框架原则具有适应性，能够通过简化的迁移过程应用于广泛的计算机视觉任务。

- 我们的方法显著扩展了当前最先进定位模型的能力，无需额外的训练或微调。它有效地解决了现有模型在解释复杂文本查询时遇到的挑战。此外，我们的框架超越了专用模型的限制，这些模型通常仅限于狭窄定义的任务和受限的输出格式，允许多样化的输入文本以及多样化的输出结果。

- 大量跨多个视觉定位基准的实验表明，所提出的框架在零样本设置中显著优于最先进的模型，无需使用额外的数据。这些实验在所有评估的数据集中都表现出显著改进，其中在RefCOCOg验证集中的最大增幅为22%。

2 相关工作

视觉定位。视觉定位基于对象检测，通过将图像的特定区域与自然语言描述链接起来，增强跨模态的理解。对象检测任务是计算机视觉领域的核心工作之一，并在不断演进。对象检测的主要目标是在图像中定位属于预定义类别的所有目标对象【18-22】。然而，这些闭合词汇对象检测（CVD）模型专注于在闭合类别集合内进行检测，由于这些预定义类别的限制，难以泛化到新的类别。随着研究的进展，出现了几项相关任务。除了CVD之外，该领域现在根据输入文本的类型区分三项任务：开放词汇对象检测（OVD）、指称表达理解（REC）和短语定位（PG）。OVD【6-12】任务通过允许识别超出预定义类别的任意类别来解决传统对象检测的局限性。相比之下，REC【23-26, 10, 27】任务专注于高度具体的查询，可能会详细描述对象的相对位置、外观特征和其他描述。与OVD不同，一个单一类别标签可以对应多个边界框，而在REC中，每个查询特定定位一个唯一对象。PG【28, 12, 11, 29】任务要求定位句子中所有引用的对象（短语），需要全面识别文本输入中的多个对象。

在本文中，我们介绍了LLM-Optic，它针对的是更广泛适用的视觉定位任务，即通用视觉定位。与为特定任务设计的专用模型不同，例如在复杂用户查询时表现不佳的OVD任务模型，或者只能定位单个对象并需要特定训练数据的REC任务模型，LLM-Optic设计得更加灵活。这意味着LLM-Optic可以根据任何给定查询识别任意数量的对象，显著扩展了视觉定位在各种场景中的适用范围，从而真正实现了通用视觉定位。

大型多模态模型。大型语言模型（LLM）领域的最新进展展示了显著的成果。这些成就迅速扩展到包含文本和图像模态的大型多模态模型（LMM）。最先进的模型【30-38】广泛应用于叙事生成【39, 40】、场景生成【41】、图像字幕生成【42】，以及作为视觉语言任务的评估器【43, 44】，展现了其卓越的能力。此外，LLM和LMM在各种应用方法中表现出灵活性。例如，一些LMM被专门训练或微调用于视觉定位【14, 15】和3D理解【45, 46】等任务。此外，一些研究【47-50】仅将LLM用作多轮对话中的计划和工具使用的代理，而无需进行任何额外的训练或微调。这些多样的应用方法展示了它们显著的实际价值。

然而，最先进的LMM如GPT-4V【31】和LLaVA【35】虽然在多个领域中表现出色，但并未针对视觉定位任务进行专门优化。因此，它们通常在处理复杂的视觉定位查询时表现不佳，通常无法直接输出查询中指定对象的精确边界框。因此，据我们所知，我们的框架LLM-Optic是首次尝试将LLM和LMM的能力与2D视觉定位模型结合。这一整合利用了LLM和LMM在图像和文本方面的推理能力，以及视觉定位模型的精确定位能力。它无需任何额外的训练或微调。此外，每次交互只需要一次对话，使用最少的令牌消耗。

3 方法

我们的目标是通过整合LLM和LMM的高级推理能力，提升现有视觉定位模型理解复杂文本查询的能力。这种增强使它们能够克服当前的局限性，从而确保对任何查询进行准确的视觉定位。我们提出的框架命名为LLM-Optic，分为三个主要组件：文本定位器（§3.1）、候选位置和标记设置（§3.2）以及视觉定位器（§3.3）。这种高度模块化的方法无需额外的训练或微调，每个组件都可以与任何最先进的模型互换。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

图2：LLM-Optic概览。我们提出使用LLM和LMM作为有效的推理模块来处理复杂的用户查询，以实现通用视觉定位。我们的框架包括三个关键模块：基于LLM的文本定位器、候选位置和标记设置模块，以及基于LMM的视觉定位器。该框架不需要任何额外的训练，并具有完全模块化的设计，允许快速整合新技术的最新进展。

3.1 文本定位器

LLM在自然语言理解方面表现出色【30, 51】。对于复杂的用户查询，我们使用LLM（GPT-3.5 Turbo）作为文本定位器来解析和解释文本查询。我们告知LLM预期的输入和输出格式；LLM使用的提示详情在附录A中提供。文本定位器有效地提取关键信息，确保对用户实际意图的深入理解。这种准确的解释至关重要，因为它指导了后续的预训练视觉定位模型准确识别用户查询中指定的对象。例如，直接将“挂在笔记本电脑正上方的图片”输入到视觉定位模型中可能会导致误解。然而，文本定位器通过语义和常识推理确定应关注定位图片，而笔记本电脑只是一个参考地标。文本定位器处理用户的原始查询后，传递给视觉定位模型的优化输入变为提取的文本“图片”，标识了一个特定的对象类别，视觉定位模型可以高效处理。

3.2 候选位置和标记设置

候选位置。通过文本定位器处理后，我们得到一个简单但精确的输入查询表达，即“优化查询”，如“图片”。这个简洁的表达被传递给一个开放词汇对象检测模型，我们具体使用Grounding DINO。Grounding DINO是一个强大的、预训练的开放词汇对象检测器，在现有视觉定位模型中表现优异。该模型负责生成可能匹配优化查询的候选对象的边界框。然而，这些候选并不是最终目标；相反，它们是匹配查询对象指定类别的初步选择。进一步的处理，包括对象外观和空间关系的分析，需要在后续模块中由视觉定位器进行额外推理。

标记设置。定位候选对象后，我们在每个候选边界框的中心标记一个唯一的数字标识符，如图3所示。这些标识符作为每个候选边界框的唯一身份。此步骤有两个主要目的：首先，通过直接索引每个用边界框注释的特定区域到对应的编号，建立文本-视觉链接，使后续的视觉定位器能够更有效地基于这些标记进行推理和响应。其次，根据Set-of-Mark Visual Prompting的研究【52】，这些标记可以有效减少大型多模态模型中常见的幻觉，从而提高视觉定位器的准确性。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

图3：候选位置和标记设置的过程。图像(a)是原始输入图像，图像(b)显示了用边界框标注的图像，而图像(c)显示了在每个边界框上应用标记后的图像。

3.3 视觉定位器

图像标记后，它与原始未处理的查询配对形成图像-文本对。这个对输入到一个LMM中，具体来说是LLM-Optic中的GPT-4V，作为视觉定位器。最先进的LMM，如GPT-4V，在一般的视觉语言任务中表现出色【53, 54】。作为视觉定位器，LMM利用其推理能力分析标记图像和原始文本查询，最终从标记候选对象中选择与查询描述目标最匹配的对象。同样地，我们告知LMM预期的输入和输出格式；LLM使用的提示详情在附录A中提供。LMM的输出是与文本查询匹配的对象的标记标识符，然后用来索引先前保存的边界框以定位目标对象。详细示例如图4所示。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

图4：文本定位器和视觉定位器输出示例。我们放大了标记的尺寸以增强可见性；然而，实际标记较小，如附录E中的附加结果所示，以避免遮挡目标对象。

4 实验

4.1 数据集

为了评估LLM-Optic的性能，我们在多个数据集上进行了实验，包括RefCOCO【55】、RefCOCOg【17】和描述检测数据集（D3）【56】。这些数据集以其复杂的描述为特征，广泛用于现有视觉定位模型的训练和测试。

RefCOCO & RefCOCOg。RefCOCO【55】和RefCOCOg【17】是专为指称表达理解（REC）任务设计的数据集，重点是理解在图像中指示唯一对象的自然语言表达。源自MS-COCO【57】，RefCOCO分为四个部分：Train、TestA、TestB和Val，而RefCOCOg分为三个部分：Train、Test和Val。两者的主要区别在于指称表达的复杂性；RefCOCO适应任何类型的语言，而RefCOCOg提供了更详细的对象描述。值得注意的是，RefCOCOg的平均表达长度为8.4个词，显著长于RefCOCO的3.5个词。

描述检测数据集（D3）。不同于RefCOCO和RefCOCOg，D3数据集采用了多样且灵活的语言表达，长度和复杂性各异。D3的一个显著特点是包含了大量强调某些概念缺失的描述，例如“直升机不在空中飞行”。这一特点大大有助于评估不同方法的稳健性。

4.2 评估指标

我们使用多种常用指标评估不同模型的视觉定位能力，包括平均交并比（mIoU）以及Accuracy@0.25和Accuracy@0.5。Accuracy@0.25和Accuracy@0.5分别指的是边界框预测与真实边界框的交并比超过0.25和0.5的准确率。

4.3 基线

我们选择了GPT-4V【31】、Grounding DINO【6】和UNINEXT【58】作为我们的基线，因为它们在代表性和稳健性方面表现优异。在视觉定位方面，Grounding DINO和UNINEXT在各自的任务中表现出了最先进的性能，特别是在OVD任务中Grounding DINO和在REC任务中UNINEXT。同样，GPT-4V也作为最先进的LMM表现出色。值得注意的是，GPT-4V和Grounding DINO没有在REC数据集（RefCOCO系列）上进行训练。相比之下，UNINEXT在RefCOCO系列上进行了训练，表现出卓越的最先进性能。我们包含这一基线以展示经过训练的管道的能力，相对于我们的零样本设置建立了一个性能上限。基线的详细规格如下。

GPT-4V。GPT-4V(ison)【31】是一个最先进的大型多模态模型，目前在各种任务中表现出色【53, 54】。在我们的实验中，我们为GPT-4V提供了精心设计的提示，详细信息见附录A，使其能够基于用户查询直接输出目标对象的边界框。

Grounding DINO。Grounding DINO【6】是一个强大的视觉定位模型，在各种对象检测数据集中表现出最先进的性能。该模型通过整合双编码器单解码器架构增强了闭合集检测器DINO【18】，在多个阶段促进了视觉语言模态融合。这一先进架构包括一个特征增强器、一个语言引导的查询选择模块和一个跨模态解码器。

UNINEXT。UNINEXT【58】是在RefCOCO系列上使用额外训练数据达到最先进结果的模型。它围绕三个主要组件构建：提示生成、图像-提示特征融合和对象发现与检索。其训练过程分为三个阶段：通感知觉预训练、图像级联合训练和视频级联合训练。值得注意的是，RefCOCO系列在后两个阶段用于微调。

4.4 结果

由于GPT-4V的配额限制，我们采用了抽样方法进行实验。我们随机抽取了RefCOCO每个部分的200对文本-图像对（共800对），RefCOCOg每个部分的200对文本-图像对（共600对），以及D3的200对文本-图像对。总共，这些抽样策略产生了1600对文本-图像对，为我们的实验提供了一个大量且多样化的测试数据集。此外，初步测试表明GPT-4在处理复杂查询方面的定位能力较弱，因此我们只从每个数据集部分抽取了50对文本-图像对，总计400对文本-图像对。所有实验均在一致的环境和统一的设置下进行。

我们按照上述数据集设置进行了实验，结果详见表1。这些结果清楚地表明，LLM-Optic在零样本设置中在所有评估的数据集中实现了最先进的性能，显著超越了Grounding DINO。例如，LLM-Optic在RefCOCOg验证集上的Accuracy@0.5方面显示出22%的显著改进。与通常使用32或16个A100 GPU以及额外训练数据进行训练的最先进模型UNINEXT相比，LLM-Optic的性能相当，尽管我们的框架不需要额外的训练。此外，在没有对UNINEXT进行微调的D3数据集中，LLM-Optic的性能超过了UNINEXT 20%，突显了我们框架的有效性。除了其出色的性能外，还需要注意的是，为了确保公平比较，我们采用了特定设置，这可能表明LLM-Optic的实际性能可能高于表1中所示的结果。有关更多详细信息，请参见附录B。

表1：在RefCOCO、RefCOCOg和D3数据集上与最先进基线的比较，突出显示了我们的优越性能，最高分以粗体表示。包括了UNINEXT在RefCOCO系列上的结果，以展示当前训练管道的能力，作为RefCOCO系列对我们零样本设置的性能上限。在相同的零样本设置下，我们的框架在D3数据集上显著优于UNINEXT，展示了我们的卓越性能和稳健性。结果清楚地表明，我们的框架在很大程度上超越了这些最先进的方法。*表示模型是否在RefCOCO系列上进行了微调。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

4.5 附加评估

使用不同LLM和LMM的消融研究。我们在D3数据集上进行了消融研究，以评估不同LLM作为文本定位器和LMM作为视觉定位器的有效性。我们从D3数据集中随机选择了100个样本进行分析。对于文本定位器，我们使用了各种LLM，包括GPT-3.5 Turbo、GPT-4、Llama-2【33】和Llama-3【33】。我们的结果（见表2）表明，所有测试的LLM表现出强大的性能。值得注意的是，开源LLM的性能与GPT-4相当，甚至基本的7B模型也表现出足够的能力，作为输入查询的文本定位器。

表2：在D3数据集上使用不同大型语言模型（LLM）作为文本定位器和大型多模态模型（LMM）作为视觉定位器的消融研究。*表示模型是否开源。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

对于视觉定位器，除了GPT-4V，我们还评估了广泛使用的开源LMM，如LLaVa-1.5【35】和LLaVa-1.6（也称为LLaVa-Next）【36】，具有不同的模型参数规模。这些评估表明，虽然LLaVa-1.6能够作为视觉定位器，但在提供准确响应方面不如GPT-4V有效。这可能是因为GPT-4V拥有更多的模型参数，并且在更广泛的数据集上进行了预训练。相比之下，LLaVa-1.5未能完成作为视觉定位器的任务，其表现不佳可能是因为LLaVa-1.6具备增强的视觉推理和OCR能力，这归功于改进的视觉指令调优数据混合，而LLaVa-1.5缺乏这些能力。这巩固了GPT-4V作为当前最可靠选择的地位。我们的模块化设计允许我们随时替换最新的预训练模型，从而可能随着该领域研究的进展提升我们模型的性能。

LLM-Optic的稳健性。LLM-Optic克服了专用模型的典型限制，这些模型通常局限于狭窄定义的任务和特定的输出格式。例如，OVD模型由于缺乏详细的上下文理解而受到限制，主要关注预定义类别，而不是详细考虑目标的具体属性。然而，REC模型擅长解析扩展描述，但受到假设图像中仅存在一个目标且需要特定训练数据的限制。这种假设在目标缺失或存在多个目标的情况下引入了限制。与这些模型不同，LLM-Optic提供了一个多功能且稳健的解决方案，能够应对各种复杂的视觉定位挑战。LLM-Optic实现了通用视觉定位，能够根据各种描述识别任意数量的对象，并且能够处理描述对象在图像中不存在的情况。这显著增强了视觉定位在各种场景中的适用范围，实现了与人类相似的稳健性。不同视觉定位模型之间的区别总结在表3中。此外，我们在图5中展示了LLM-Optic处理不同情况的案例。

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic） -AI.x社区

5 结论

在本文中，我们介绍了LLM-Optic，这是一种旨在增强当前最先进视觉定位模型能力的新型框架，无需额外的训练或微调。它有效地解决了现有模型在解释复杂文本查询时遇到的局限性。此外，LLM-Optic克服了专用模型固有的限制，这些模型通常受限于定义狭窄的任务和输出格式，实现了通用视觉定位。该框架具有模块化设计，每个组件都可以与任何最先进的模型互换。具体来说，它集成了三个核心组件：基于LLM的文本定位器、候选位置和标记设置模块，以及基于LMM的视觉定位器。广泛的实验表明，LLM-Optic在多个数据集的零样本设置中，性能优于当前最先进的方法。此外，据我们所知，LLM-Optic是首个利用LLM和LMM来增强计算机视觉方法的研究，为未来的研究提供了宝贵的见解。

Zhao H, Ge W, Chen Y. LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding[J]. arXiv preprint arXiv:2405.17104, 2024.

本文转载自公众号AIRoobt ，作者：AIRoobt

原文链接:https://mp.weixin.qq.com/s/pHSddyFBGBhTuhZp7K0qYQ

标签

大模型

视觉

51CTO

51CTO博客

51CTO学堂

港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic）原创