基于多模态大语言模型的上下文目标检测原创精华

发布于 2025-3-6 09:33

浏览

0收藏

摘要：

最近的多模态大语言模型（MLLMs）在视觉-语言任务（如图像描述和问答）中表现出色，但缺乏关键的感知能力，即目标检测。本文提出了一种新的研究问题——上下文目标检测，即在人机交互的上下文中理解可见物体。我们研究了三种代表性场景：语言填空测试、视觉描述生成和问答。此外，我们提出了ContextDET，一种统一的多模态模型，能够端到端地对视觉-语言上下文进行可微分建模，从而定位、识别并将视觉对象与语言输入关联起来，以支持人机交互。ContextDET包含三个关键子模型：（1）用于提取视觉表示的视觉编码器，（2）用于多模态上下文解码的预训练大语言模型（LLM），以及（3）用于根据上下文对象词汇预测边界框的视觉解码器。这种“生成-检测”框架使我们能够检测人类词汇中的对象词汇。大量实验表明，ContextDET在我们提出的CODE基准、开放词汇检测和引用图像分割任务中具有显著优势。

1、引言

“对我来说，上下文是关键——从它衍生出对一切的理解。” —— Kenneth Noland

计算机视觉的一个不可或缺的基石——目标检测——是理解场景中的可见物体，它赋能了许多应用，如机器人、自动驾驶和AR/VR系统。最近，通过互联网规模的视觉-语言数据训练的多模态大语言模型（MLLMs），包括Flamingo、PaLM-E和OpenAI的GPT-4，展示了革命性的能力，使人类能够与AI模型进行各种视觉-语言任务的交互，例如图像描述和问答。这种交互式的人机环境需要对上下文信息进行建模，即视觉对象、人类词汇、短语甚至对话之间的关系。因此，有必要提升MLLMs的能力，使其能够定位、识别并将视觉对象与语言输入关联起来，以支持人机交互。

在本文中，我们研究了一个新的研究问题——上下文目标检测，即在人机交互的上下文中理解可见物体。与现有的标准目标检测相比，我们为这种新设置考虑了四个综合目标：（1）能力：能够处理人类语言词汇；（2）描述：用信息丰富的自然语言语句描述用户的视觉输入；（3）感知：定位并将视觉对象与语言查询关联起来；（4）理解：根据语言提示补充适当的词汇。为了涵盖这四个目标，我们结合了三种代表性任务：语言填空测试、视觉描述生成和问答，并将其与目标检测结合（见图1）。

尽管在开发更准确、更快速的目标检测算法方面取得了显著进展，但由于以下原因，现有的深度目标检测器无法直接与MLLMs集成以进行上下文目标检测。首先，标准的深度检测器（如Mask-RCNN和DETR）使用封闭集分类器进行训练，无法在现实场景中很好地泛化，因为这些场景中的对象类别或类并未预先定义或限制在封闭集中。尽管最近基于最先进的视觉-语言模型（如CLIP和ALIGN）的开放词汇目标检测（如Gu et al., 2022; Zhou et al., 2022; Zang et al., 2022; Rasheed et al., 2022）可以提高对新类别的零样本迁移能力，但它们受限于预定义的新类别规模，无法检测人类语言词汇中的对象。虽然一些论文（如Dai et al., 2023）探索了使用LLMs改进二元OOD分类，但识别人类语言词汇中的新类别名称尚未得到解决。例如，这些开放词汇检测器无法处理图1中的分布外类别，如“曲棍球守门员”“新郎”和“牛仔”。其次，现有深度检测模型固有的“先定位再分类”范式不适合上下文目标检测。在通用的人机交互场景中，视觉场景中的自然对象和语言输入中的人类词汇在不同上下文中具有不同的含义。例如，在图1（a）和（b）中，通用的“人”类别在不同的视觉上下文中表现为“守门员”“球员”“牛仔”“新郎”“新娘”和“工人”。此外，随着语言上下文的变化，“拉布拉多”一词取代了“狗”的表示（图1（c））。因此，需要一种创新的检测方法来适应多样且变化的上下文目标检测。

基于多模态大语言模型的上下文目标检测-AI.x社区

图 1：我们提出了一个新的上下文目标检测任务，包括：(a) 观察图像并补全被遮盖的目标名称和位置；(b) 预测存在于描述性文字中的目标的标题和边界框；(c) 回答有关目标名称和位置的问题。与通常专注于检测有限的预定义目标类别（例如“人”）的传统目标检测任务不同，我们的任务需要基于上下文理解来预测更具体的目标名称（例如“冰球守门员”、“新郎”或“新娘”）。

为了应对上述挑战，本文提出了ContextDET，一种专门用于上下文目标检测的“生成-检测”框架。具体来说，它是一个端到端模型，包含三个关键模块。首先，视觉编码器提取给定图像的高级表示，并生成局部和完整的视觉令牌以进行进一步的上下文建模。其次，为了有效建模多模态上下文，我们使用预训练的LLM进行文本生成，并以局部视觉令牌和任务相关语言令牌作为多模态前缀的条件输入。第三，将LLM生成的令牌作为视觉检测的先验知识，我们引入了一个视觉解码器，该解码器由多个交叉注意力层组成，在其中我们从上下文LLM令牌中计算条件对象查询，并从完整视觉令牌中提取键和值，以预测相应的匹配分数和边界框。这使得我们能够检测人类词汇中的上下文对象词汇。

贡献：总结来说，我们的贡献如下：（1）我们研究了上下文目标检测——这是视觉目标检测的一个新方向，旨在提升MLLMs在人机交互中的能力。（2）为了推动该领域的实证研究，我们提出了一个新的基准CODE，包含10,346个独特的对象词汇，以促进上下文目标检测的研究。（3）我们提出了一种新颖的“生成-检测”框架ContextDET，专门用于上下文目标检测。（4）我们展示了ContextDET不仅在CODE基准上具有优势，还在开放词汇检测和引用图像分割任务中表现出色。我们希望我们的工作能够激发未来在上下文目标检测方面的研究，从而造福人机交互。

2、相关工作

1. 多模态大语言模型（MLLMs）

大语言模型（LLMs）已被开发用于理解和生成文本语言，在广泛的自然语言处理（NLP）任务中表现出色。著名的LLMs包括OpenAI的GPT系列、Google的T5和PaLM，以及Meta的OPT和LLaMA。最近，MLLMs领域取得了进展（如Mokady et al., 2021; Tsimpoukelli et al., 2021; Chen et al., 2022b; Koh et al., 2023; Li et al., 2023; Huang et al., 2023; Driess et al., 2023; OpenAI, 2023），例如GPT-4模型，这些模型扩展了LLMs的能力，使其能够理解语言和视觉输入。MLLMs在图像描述和视觉问答等视觉-语言任务中表现出色。然而，现有的MLLMs仅限于生成文本输出。相比之下，我们的ContextDET基于MLLMs，扩展了对上下文目标检测的支持，提供边界框输出。更多比较见第5.6节。

2. 使用视觉专家模型提示LLMs

最近的一些论文（如Shen et al., 2023; Wu et al., 2023a; Yang et al., 2023）提出了利用LLMs（如ChatGPT）生成的文本输出来操纵外部视觉专家模型以完成各种视觉相关任务的系统。在目标检测的背景下，这些视觉专家模型包括DETR、Grounding DINO、SAM等。然而，由于LLMs和专家模型的参数是冻结的，LLMs的知识和表示无法共享，可能导致性能不佳。与这些基于提示的方法不同，我们的ContextDET采用端到端的训练流程，利用从MLLMs提取的潜在特征作为视觉解码器的条件输入，从而预测边界框。

3. 具有上下文理解的目标检测

“上下文”通常指图像中的邻近像素或周围区域，并已在先前的研究中广泛探索以增强目标检测算法（如Divvala et al., 2009; Mottaghi et al., 2014; Shrivastava and Gupta, 2016; Chen et al., 2018）。在本文中，上下文信息的概念涵盖了多模态模式和关系，涉及视觉图像和文本词汇。我们的ContextDET利用MLLMs的强大上下文理解能力，并将其应用于下游目标检测任务。此外，我们提出了新的评估任务（如填空测试），以更有效地评估上下文理解能力。

4. 新类别上的目标检测

尽管深度学习技术在目标检测方面取得了显著进展（如Ren et al., 2015; Liu et al., 2016; Law and Deng, 2018; Tian et al., 2019; Carion et al., 2020; Chen et al., 2022b; Liu et al., 2021; Zhang et al., 2023; Zhu et al., 2021; Wang et al., 2023b），但在现实场景中，目标检测仍然是一个具有挑战性的任务，特别是在零样本目标检测（Bansal et al., 2018）的情况下。零样本目标检测要求模型在训练时仅使用基础类别的数据，但能够检测训练时未见的新类别。最近的一种零样本检测变体，称为开放词汇目标检测，允许使用额外的图像-文本对（Zareian et al., 2021），引起了研究社区的广泛关注。在这一背景下，最近的视觉和语言预训练模型（如CLIP、ALIGN）被广泛用于开放词汇目标检测（如Gu et al., 2022; Zhou et al., 2022; Du et al., 2022; Zang et al., 2022; Rasheed et al., 2022; Kuo et al., 2022; Wu et al., 2023b,c）。与仅依赖CLIP的方法不同，我们的ContextDET表明，MLLMs也可以有效地应用于开放词汇设置。在MLLMs的帮助下，ContextDET不受预定义的基础或新类别的限制。值得注意的是，ContextDET预测的对象名称可以由MLLMs生成为最符合上下文的有效英文单词。

表1：我们提出的三种上下文目标检测设置与之前相关任务的比较。

基于多模态大语言模型的上下文目标检测-AI.x社区

5. 视觉定位

视觉定位任务（如引用表达式理解）结合了目标检测和语言理解能力。在这些任务中，提供一个语言查询来描述特定对象，模型的任务是预测被引用对象的位置。最先进的算法（如Yang et al., 2022; Wang et al., 2022）通常采用基于Transformer的跨模态结构或多模态预训练（如Kamath et al., 2021）。我们提出的上下文目标检测任务比视觉定位更具挑战性。例如，在我们的填空测试中，语言查询是不完整的，对象名称被掩码。模型需要根据上下文信息推断缺失的对象名称及其位置。此外，在我们的上下文描述生成设置中，没有提供语言查询。而在我们的上下文问答设置中，对象是在交互环境中使用人类语言描述的。

6. 图像描述生成

图像描述生成任务旨在生成描述性句子以理解给定图像。通常，图像描述生成模型首先使用预训练的分类模型（如Chen et al., 2017）、目标检测模型（如Anderson et al., 2018）或视觉语言模型（如Mokady et al., 2021）将输入图像编码为特征嵌入。随后，使用LSTM（Hochreiter and Schmidhuber, 1997）或Transformer（Vaswani et al., 2017）等子模块将特征嵌入解码为预测的句子。相比之下，我们的上下文描述生成任务不仅需要生成语言输出，还要求模型预测生成描述中提到的对象的边界框位置。

7. 视觉问答（VQA）

视觉问答任务涉及回答与给定图像相关的问题（如Antol et al., 2015; Goyal et al., 2017）。在传统的VQA中，模型的输入和输出由自然语言中的问答对组成。然而，在我们的上下文问答任务中，问题专门询问对象名称和位置，而相应的答案需要包括被引用对象的边界框。

3、方法

本节描述了我们的上下文目标检测框架ContextDET，它接受图像和人类文本的交错输入，并生成自由格式的文本和相应的边界框作为输出。如图2所示，我们的ContextDET是端到端的，包含三个关键架构组件：（1）一个视觉编码器，用于提取高级图像表示并计算视觉令牌；（2）一个预训练的大语言模型（LLM），用于解码带有任务相关多模态前缀的多模态上下文令牌；（3）一个视觉解码器，用于预测与上下文对象词汇相关的条件查询的匹配分数和边界框。

基于多模态大语言模型的上下文目标检测-AI.x社区

图 2：我们的 ContextDET 是一个统一的端到端框架，能够处理不同任务的不同语言标记输入，包括 (a) 完形填空测试、(b) 图像描述生成和 (c) 问答。符号“雪花”表示冻结的部分。符号 e 表示语言模型的潜在嵌入（第 3.2 节），符号 q 表示视觉解码器的目标查询（第 3.3 节）。

视觉编码器

基于多模态大语言模型的上下文目标检测-AI.x社区

多模态上下文建模与LLM

4、CODE基准

为了促进上下文目标检测的研究，我们构建了一个上下文目标检测（Contextual Object DEtection, CODE）数据集。具体来说，我们从Flickr30k（Young et al., 2014）和Flickr30k Entities（Plummer et al., 2015）中收集了图像、边界框和描述注释。我们添加了包含描述字符串中对象名称位置信息的注释。这些对象名称将被替换为“[MASK]”令牌，作为我们填空测试设置的输入。CODE分为三个部分：训练集包含29,781张图像中的665,161个边界框，验证集包含1,000张图像中的22,061个边界框，测试集包含999张图像中的21,641个边界框。总体而言，CODE数据集包含10,346个独特的对象名称，超过了以往任何检测数据集中的对象名称数量，例如COCO（80个类别）和LVIS（1,203个类别）。

数据格式

我们的CODE基准遵循COCO数据集（Lin et al., 2014）的数据格式，并添加了额外的字段（蓝色标注），包括语言描述、令牌ID和对象名称。令牌ID记录了对象名称在语言令牌中的起始和结束位置索引。

基于多模态大语言模型的上下文目标检测-AI.x社区

图3：我们的CODE基准遵循COCO数据集的数据格式，并添加了额外的字段（蓝色标注），包括语言描述、令牌ID和对象名称。令牌ID记录了对象名称在语言令牌中的起始和结束位置索引。

基于多模态大语言模型的上下文目标检测-AI.x社区

图4：CODE训练集（左）和测试集（中、右）中对象词汇的词云可视化。中间的图展示了测试集中高频词汇的可视化，而右侧的图展示了低频词汇的可视化。

基于多模态大语言模型的上下文目标检测-AI.x社区

图5：（a）传统目标检测任务的评估标准与（b）我们的上下文填空测试评估标准的比较。

评估细节

现有的目标检测数据集（如Pascal VOC、Microsoft COCO、Open Images、LVIS、Object365和V3Det）依赖于标签ID与类别名称之间的预定义映射进行评估。例如，COCO数据集使用类似（1, person）、（2, bicycle）、...、（80, toothbrush）的映射来表示其80个类别。如图5（a）所示，为了被分类为真正例（true positives），预测的边界框必须与真实边界框具有较高的IoU重叠，并且类别ID必须相同。在某些情况下，例如零样本（Bansal et al., 2018）或开放词汇（Zareian et al., 2021）目标检测设置中，预定义的类别被分为两组：基础和新类别，以评估模型的泛化能力。然而，这些评估仍然依赖于预定义的ID-名称映射，而名称未包含在预定义映射中的对象则无法被评估。

人类的感知并不依赖于预定义的类别ID。因此，对于我们提出的上下文填空测试任务，我们建立了新的评估标准，使用人类语言中的对象名称进行评估。在此评估中，给定一个带有掩码的语言表达式和掩码词汇的索引，如果预测的边界框满足以下条件，则将其分类为真正例：（1）与真实边界框具有较高的IoU重叠；（2）具有相同的含义；（3）具有相同的掩码索引。相反，如果预测不满足这些条件，则被视为假正例（false positives）。掩码索引用于区分句子中多个具有相同名称但位于不同[MASK]令牌位置的对象。对象名称对应于LLMs的Tokenizer解码的最有效的英文单词。

在定义了基于名称的真正例/假正例标准后，我们可以计算整体的平均精度（AP）指标进行评估。我们遵循COCO数据集设置IoU阈值，范围从0.5到0.95，步长为0.05。由于存在大量长尾低频名称，其中只有少数示例可用于评估，因此我们未计算每个名称的AP。

AP@5用于前5个预测名称

在某些情况下，我们的评估指标可能过于严格，特别是在处理大量同义词或细粒度类别时，这些类别对标注者来说难以区分。类似的挑战在之前的图像分类数据集（如ImageNet）中也曾遇到，其中使用top-5准确率作为top-1准确率的补充指标。因此，我们还引入了一个补充指标，称为top-5 AP（AP@5），该指标放宽了真正例的定义。在AP@5下，如果真实名称位于前5个预测中，则预测被视为真正例。相比之下，基于top-1预测结果计算的AP指标称为AP@1，以区别于AP@5。

实现细节

我们修改了COCO数据集中提供的著名pycocotools包，并创建了评估脚本。

上下文问答和上下文描述生成的评估

填空测试、描述生成和问答设置的上下文理解性能高度相关。一个设置中的定量评估可以轻松转换为另一个设置，只需使用不同的文本提示。例如：

- 填空测试提示：A -- stands with his bride while holding balloons。（预期答案：groom）

- 描述生成提示：A photo of a -- standing with his bride while holding balloons。（预期答案：groom）

- 问答提示：Question: who is standing with the bride while holding balloons in this image? Answer: ----。（预期答案：The groom）

这三种设置本质上评估的是同一场景的上下文理解能力，但表现形式不同。

5、实验

我们在不同任务上展示了ContextDET的结果，包括（1）我们提出的上下文目标检测任务（见第5.1节），以及现有任务，如（2）开放词汇目标检测（见第5.3节）和（3）引用图像分割（见第5.4节）。

实现细节

我们的方法使用PyTorch实现，所有模型均在配备4块NVIDIA A100 GPU的单台机器上进行训练。训练期间，应用了数据增强技术，包括随机水平翻转（概率为0.5）和大尺度抖动（Ghiasi et al., 2021）。我们将批量大小设置为8，并训练模型6个周期。我们使用AdamW优化器（Loshchilov and Hutter, 2019），学习率为 \(1e^{-4}\)，权重衰减为0.05。对于ContextDET，我们报告了使用OPT-2.7B（Zhang et al., 2022b）作为语言模型和ResNet50（He et al., 2016）作为视觉骨干的结果。

5.1 上下文目标检测

本节报告了我们提出的CODE数据集（见第4节）上的基准测试结果。

评估指标

在我们的上下文填空测试设置中，我们计算了分类准确率和检测AP指标。准确率表示正确预测对象词汇的百分比。然而，由于人类语言中存在大量同义词和细粒度对象词汇，评估这一准确率具有挑战性。这与之前的大词汇量图像分类数据集（如ImageNet）面临的问题类似，这些数据集使用top-5准确率作为top-1准确率的补充指标。因此，我们同时采用了top-1准确率（Acc@1）和top-5准确率（Acc@5）作为评估指标。对于边界框评估，我们基于top-1和top-5预测名称计算平均精度（mAP）指标，分别表示为AP@1和AP@5。在评估中，我们比较的是对象名称词汇，而不是预定义的类别ID，这使得评估能够灵活扩展到广泛的人类词汇。对于我们的上下文问答和描述生成设置，我们通过修改填空测试任务中使用的输入文本提示格式来获得定量结果。

基线方法

由于之前的方法不具备“生成-检测”能力，我们使用级联解决方案将现有方法结合作为基线：首先使用BLIP-2（Li et al., 2023）、LLaVA（Liu et al., 2023b）或LLaVA 1.5（Liu et al., 2023a）生成描述，然后使用代表性的定位方法GLIP（Li et al., 2022）。我们还选择了GLIP-2（Zhang et al., 2022a）作为基线，因为它与我们的上下文问答和描述生成场景兼容。然而，GLIP-2不适用于填空测试设置，因为它需要完整的对象名称。

结果

我们在表2中提供了ContextDET在CODE数据集上的基准测试结果。我们的结果表明，上下文目标检测非常具有挑战性：top-1 AP显著低于之前的目标检测数据集（如COCO），这主要归因于我们的基准包含10,346个独特的对象名称（COCO仅有80个名称）。与BLIP-2/LLaVA/LLaVA1.5+GLIP等级联解决方案相比，我们的端到端ContextDET在所有设置上均表现更好。这归因于从LLMs提取的隐藏嵌入通过自注意力操作符包含了视觉和文本令牌之间的上下文关系，这对于需要上下文理解能力的任务至关重要。

我们还比较了ContextDET与LLaVA 1.5以及在CODE数据集上微调GLIP检测器的结果（表2中的第4行）。然而，我们发现微调GLIP并未显著提高检测性能。这是因为GLIP依赖于对比学习，可能无法有效适应大量具有细微差异的对象类别。我们的观察表明，LLM令牌提供的上下文信息对于检测大词汇量（如CODE数据集中超过10k个类别）中的新对象至关重要。

基于多模态大语言模型的上下文目标检测-AI.x社区

5.2 消融实验

我们研究了使用局部视觉令牌 \( \bm{z} \)、决定局部区域数量的超参数 \( p \) 以及效率分析的影响。实验在CODE验证集上进行。

超参数 \( p \)

如第3.1节所述，我们有 \( p \) 个局部视觉令牌作为LLM解码的前缀输入。在表5中，我们展示了使用不同 \( p \) 值的效果。我们观察到，选择 \( p = 9 \)（第2行）能够获得最佳结果，因此将其作为默认选择。

更多骨干网络

我们在表3中提供了ContextDET在CODE数据集上的结果。我们首先报告了使用OPT-2.7B作为语言模型和ResNet50作为视觉骨干的结果（第1行）。我们的结果表明，上下文填空测试任务非常具有挑战性：top-1 AP（AP@1）仅为10.2，显著低于之前的目标检测数据集（如COCO）。此外，我们的研究表明，使用更强大的语言模型和视觉骨干可以提高性能。当我们将ResNet50替换为Swin-B（第2行）时，我们观察到AP@1从10.2显著提高到13.1。此外，通过将OPT-2.7B替换为更大的OPT-6.7B（第4行），我们实现了更高的AP@1性能（13.7）。

基于多模态大语言模型的上下文目标检测-AI.x社区

不使用局部视觉令牌的LLM

在我们的上下文填空测试设置中，即使没有局部视觉令牌输入 \( \bm{z} \)，LLM也能够进行预测。然而，通过分析表4中的结果，我们观察到性能显著下降。例如，top-1准确率从48.7下降到30.9（约20%）。这一观察强调了在我们的方法中添加局部视觉令牌对于上下文理解的关键作用。我们还观察到，在没有 \( \bm{z} \) 的情况下，语言建模损失 \( \mathcal{L}_{\text{lm}} \) 的值几乎没有下降。这是因为计算语言建模损失 \( \mathcal{L}_{\text{lm}} \) 与生成下一个文本令牌密切相关，而生成文本令牌严重依赖于视觉令牌 \( \bm{z} \)。如果没有视觉令牌 \( \bm{z} \)，模型无法有效生成准确描述视觉内容的文本令牌，导致语言建模损失停滞。

效率分析

我们模型中的大多数参数（包括LLM组件）是冻结的，因此可训练参数的比例较小。如表2第1行所示，当使用OPT-2.7B和ResNet50骨干时，只有6.4%的参数（183/2,835）是可训练的。我们的设计并未带来显著的计算负担，并且可以轻松复现。

5.3 开放词汇目标检测

我们展示了我们提出的ContextDET也可以应用于开放词汇目标检测任务，旨在评估其泛化能力。根据之前的工作（Bansal et al., 2018; Zareian et al., 2021），我们使用OV-COCO基准，并将65个类别分为基础/新类别（48/17）。模型仅在基础类别上训练，但在新类别上进行评估（训练期间不可用）。我们使用平均精度（AP）指标在基础、新类别和所有类别上测量性能。

为了将ContextDET适应开放词汇设置，我们为每个类别（包括基础和新类别）提出类似“Does the [CLASS] appear in this picture?”的问题。如果MLLM回答“Yes”，我们将相应类别名称的潜在嵌入 \( \bm{e} \) 作为视觉解码器的条件输入（见第3.3节）。我们在表6中比较了ContextDET与选定的基线方法，包括最先进的方法BARON（Wu et al., 2023c）。我们观察到，ContextDET在新类别、基础类别和所有类别上分别显著优于BARON，分别提高了2.8%、4.7%和4.2%。所有基线方法都依赖于视觉-语言模型CLIP的先验知识。相比之下，我们的ContextDET使用MLLM来检测新对象。结果表明，在互联网规模数据集上训练的MLLM具有强大的泛化能力，可以有益于开放词汇任务。

效率分析

OV-DETR的训练和测试时间（秒/迭代）分别为0.47/0.63和0.54/0.25。虽然由于LLMs的参数较多，我们的方法增加了训练时间，但在测试时更加高效。这是因为OV-DETR以所有类别为条件，而ContextDET通过提问仅以图像中存在的类别为条件。

5.4 引用图像分割

我们的ContextDET不仅限于目标检测，还可以扩展到图像分割任务，其目标是为输入图像中的每个像素分配像素级标签。为了将ContextDET框架适应分割任务，我们引入了一个额外的像素级分割头，该头以完整视觉令牌 \( \bm{c} \) 作为输入。为了训练分割模型，我们使用像素级交叉熵损失 \( \mathcal{L}_{\text{mask}} \) 和Dice损失 \( \mathcal{L}_{\text{dice}} \)，其中真实标签是图像中匹配对象的像素级掩码。

我们选择引用图像分割任务作为代表性基准，以评估ContextDET的分割性能。引用图像分割任务的目标是根据细粒度的输入语言查询分割图像中的区域。语言查询将作为ContextDET中视觉解码器的条件输入。我们使用了三个常用的数据集：RefCOCO（Yu et al., 2016）、RefCOCO+（Yu et al., 2016）和RefCOCOg（Nagaraja et al., 2016）。在RefCOCO和RefCOCO+上，我们遵循Yu等人（Yu et al., 2016）中默认的训练/验证/testA/testB数据划分。对于RefCOCOg，我们使用RefCOCO-umd划分（Nagaraja et al., 2016）。我们报告了平均交并比（mIoU），该指标通过计算所有测试样本的IoU分数的平均值得到。我们在表7中将ContextDET与一些最先进的方法进行了比较。ContextDET在验证/测试集上分别比PolyFormer（Liu et al., 2023c）提高了0.63%和0.45%的mIoU。

表7：在三个引用图像分割基准上与最先进方法的比较（以mIoU指标衡量）。

基于多模态大语言模型的上下文目标检测-AI.x社区

5.5 标准目标检测

我们进一步评估了ContextDET在标准目标检测任务上的有效性，使用COCO基准。通过应用ContextDET的“描述生成”设置，并实施后处理调整（如过滤掉不相关的对象类别和置信度阈值），结果如表8所示。虽然我们的性能不如专门的目标检测方法（如Deformable DETR），但ContextDET在检测小物体方面表现出色，这归因于上下文信息在消除包含小物体的区域歧义方面的优势。

基于多模态大语言模型的上下文目标检测-AI.x社区

表8：在COCO验证数据集上标准目标检测结果的比较。

基于多模态大语言模型的上下文目标检测-AI.x社区

5.6 定性结果

除了在CODE基准上的定量评估外，我们还通过更多样化的图像和对象对ContextDET进行了定性评估，如图7所示。我们观察到ContextDET在复杂上下文理解和泛化到开放世界名称方面的能力。例如，如图7（a）所示，ContextDET能够合理推断出填充掩码的对象名称，并准确地将对象名称与边界框关联起来。此外，ContextDET能够预测开放世界概念的名称和位置（如“哈利·波特”“皮卡丘”“梅西”），这些概念使用之前的封闭集目标检测器难以检测。最后，在图7（c）中，我们展示了ContextDET能够进行多轮问答对话，并预测对话历史中提到的对象的边界框。

我们进一步提供了ContextDET在上下文填空测试（图8）、上下文描述生成（图9）和上下文问答设置（图10）中预测的更多定性结果。所选图像随机来自网络，并未包含在训练数据中。我们观察到ContextDET能够有效预测上下文对象词汇，包括“老师”“学生”“医生”和“护士”等术语，以及它们对应的边界框。此外，我们发现了一些失败案例。例如，预测的对象词汇可能不正确，特别是对于不太常见的术语（如“地球”）。当处理遮挡对象（如“羊”）时，ContextDET的鲁棒性较差。我们计划在未来的研究中解决这些局限性。

基于多模态大语言模型的上下文目标检测-AI.x社区

图 7：ContextDET 在我们的三种上下文目标检测设置中预测的定性示例，包括 (a) 完形填空测试、(b) 图像描述生成和 (c) 问答。其中的“哈利·波特”、“皮卡丘”和“梅西”是新出现的名称，这些名称并未在 CODE 训练集中标注。ContextDET 展示了合理的上下文理解和泛化能力。

与MLLMs的比较

我们在图6中展示了一些视觉示例，并将我们的ContextDET与一些流行的MLLMs（如GPT-4）进行了比较。现有的MLLMs只能生成文本输出，而我们的ContextDET通过提供感兴趣对象的边界框进一步推动了边界。特别是，我们的方法允许对文本输入中指定的感兴趣对象进行细粒度定位，这为视觉-语言模型提供了更高程度的可解释性。总的来说，我们的方法为需要对象定位和对话交互的各种应用提供了新的可能性，例如AR/VR系统和机器人。

6、结论

尽管最近的MLLMs在视觉-语言任务（如问答）中展示了显著的能力，但它们在感知任务中的潜力仍然很大程度上未被探索。我们的ContextDET突出了MLLMs在多样化感知任务中的巨大潜力，例如提出的上下文目标检测任务，该任务预测图像中精确的对象名称及其位置以支持人机交互。为了训练我们的模型，我们需要将边界框的对象词汇与语言描述关联起来，这带来了高昂的标注成本。因此，与之前的MLLM论文相比，我们使用了较少的训练数据，这可能限制了我们的最终性能。在未来的工作中，我们计划探索使用半监督或弱监督学习技术来减少标注成本。此外，除了它们的上下文理解能力外，我们相信MLLMs的其他能力在下游任务中仍然未被充分探索，例如它们的交互能力用于指令调优。例如，MLLMs能否用于根据人类语言指令对检测输出进行后处理？通过提供诸如“将预测框稍微向左移动”“移除冗余的重叠框”或“将预测类别从鹰更正为猎鹰”等指令，MLLMs能否相应地调整预测以满足我们的期望？我们希望本文提出的见解能够激发进一步研究，以将MLLMs应用于更多计算机视觉任务的革命性变革。

本文转载自公众号AIRoobt ，作者：AIRoobt

原文链接：https://mp.weixin.qq.com/s/L9iGndBWpH8XZutDStxfKQ

标签

多模态

大语言模型

已于2025-3-6 09:33:13修改

51CTO

51CTO博客

51CTO学堂

基于多模态大语言模型的上下文目标检测原创精华

摘要：