Open Vocabulary Detection 开放世界目标检测竞赛 2023获胜团队方案分享-51CTO.COM

OVD技术简介

目标检测是计算机视觉领域中的一项核心任务，其主要目标是让计算机能够自动识别图片中目标的类别，并准确标示每个目标的位置。目前，主流的目标检测方法主要针对闭集目标的开发，即在任务开始之前需要对待检测目标进行类别定义，并进行人工数据标注，通过有监督模型的训练来实现目标检测。这种方法通常适用于待检测目标数量较少的情况，一般限定在几十个类别以内。然而，当待检测目标的类别数量增加到几千甚至万级时，以上述方式进行数据标注已经无法满足需求。同时，已经训练好的模型也无法应对新出现的类别。当新的类别出现时，需要手动进行标注并重新训练模型，整体效率较低。

开放词集目标检测（Open Vocabulary Detection, OVD），亦即开放世界目标检测，提供了解决上述问题的新思路。借助于现有跨模态模型（CLIP[1]、ALIGN[2]、R2D2[3] 等）的泛化能力，OVD可以实现以下功能：1）对已定义类别的few shot检测；2）对未定义类别的zero-shot检测。OVD技术的出现吸引了计算机视觉研究者们的广泛关注，首先，对于已定义类别的few shot检测，OVD的强大泛化能力可以让算法在仅有少量样本的情况下，准确地识别出新的目标类别。其次，对于未定义类别的zero-shot检测，OVD的能力更是令人惊叹。通过学习各种物体的视觉特征和语义信息，OVD可以在没有见过的类别中进行目标检测，进一步将语言大模型技术引入OVD，将会进一步提升OVD对未知类别的检测能力。OVD技术有望成为未来目标检测算法开发的新范式。

竞赛介绍

OVD技术的研究在国内尚处于起步阶段，为了促进国内OVD技术的发展，并加强OVD技术的生态社区建设，360人工智能研究院联合中国图象图形学学会于ICIG2023大会上开设了Open Vocabulary Detection Contest - 开放世界目标检测2023竞赛。大赛于4月12日启动报名，报名期间吸引了来自新加坡南洋理工大学、清华大学、北京大学、香港大学、中国科学院自动化研究所紫东太初大模型研究中心、鹏城实验室、华中科技大学、字节跳动、滴滴等知名大学与公司机构共140支队伍参加竞赛。此次大赛所使用的赛题数据、竞赛提交平台与赛题设置均由360人工智能研究院提供支持。

赛题数据主要涵盖了服装、数码产品等众多商品类目，对于一件商品，均给出了它的图片以及对应的检测框标注信息作为训练数据。商品数据在互联网搜索、推荐中具有重要价值，是非常贴近业务场景的实用数据。其次商品数据集的难度较大，同类别商品之间普遍存在一些细节差异，而这一点也限制了传统目标检测技术的泛化能力，进而体现出OVD技术的优势性。

赛题设置：参赛者运用OVD相关的方法，对图像中的商品目标进行检测。对于一件商品，主办方会给出它的图片以及bbox作为训练数据。目标类别有两类：base类和novel类。类别均为中文商品词组。base类的目标提供少量已标注的训练样本，novel类的目标则没有训练样本。评测分别在base类的测试集和novel类的测试集上进行，评测指标为novel和base类的mAP@50，竞赛按照novel和base类别的整体mAP@50排序。

竞赛共分为初赛与复赛两个阶段，由初赛到复赛，赛题难度逐步提升，考验选手对开放世界目标检测赛题的熟悉程度与灵活应变能力。比赛中，各位选手的方案追逐激烈，最终前三名团队的复赛分数十分接近。经过初赛与复赛的层层选拔，最终有6支队伍脱颖而出，由来自南洋理工大学的吴思泽团队摘得桂冠。获得二等奖的是来自华中科技大学的STAR团队与来自中国科学院自动化研究所紫东太初大模型研究中心的咱们组有名称吗团队，获得三等奖的是来自北京大学的OVD团队、来自哈尔滨工业大学的wzmwzr团队与来自武汉邮电科学研究院的蓝色闪团队。Open Vocabulary Detection Contest - 开放世界目标检测竞赛的官网链接：开放世界目标检测竞赛2023 (360cvgroup.github.io)

在各个竞赛团队的积极参与、中国图象图形学学会与360人工智能研究院的大力支持下，Open Vocabulary Detection Contest - 开放世界目标检测竞赛已经正式结束，在征集各个竞赛团队的许可后，我们将部分优胜团队的技术方案汇总并公开分享，详见本文下半部分。

[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.

[2] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. V. Le, Y. Sung, Z. Li, and T. Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning, 2021.

[3] Xie C, Cai H, Song J, et al. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework[J]. arXiv preprint arXiv:2205.03860, 2022.

冠军方案讲解

团队介绍

来自南洋理工大学的博士生吴思泽

赛题分析

1、数据集

本次主办方提供的是商品数据集，总共466个物体类别，其中训练中可见的有233个base类别，测试时检测器需要能够同时识别base类的物体意见另外233个novel类别的物体。数据集中图片以网购商品图为主，背景通常较为简单，每张图物体数量不多，存在大量以物体为中心（object-centric）的图片，训练集中平均每张图的物体标注数量<2。

2、解决思路

根据数据集属性，可知互联网中存在大量包含新类别的商品图片，由于图片场景简单，物体单一，在图像层级（image-level）上学习新类别的表征，可很好泛化到检测上。因此选择基础方案为Detic，使用爬虫获取带有新类别tag的图片，用于image-level的训练。

方案总览

采用Detic[1]的训练策略，同时使用目标检测数据（base类）和图像分类数据（base类+novel类）训练检测器。

方案流程介绍

1、数据处理

选择百度图片为爬取对象，索引关键词为”[中文名称] 商品图片”，为保证类别平衡，novel和base类别均爬取40页(大约1000张)。每个类别爬取到的图片存到一个路径下，这些图片只有类别Tag，没有物体框标注。

2、类别名称翻译

为方便使用现有的开源模型（CLIP），需要将466个中文名称均翻译成英文，我们使用google translator翻译每个名称并人工校对。

3、模型介绍

选择ResNet50和SwinB作为检测器backbone，检测器结构为CenterNet2，使用Detic公开的在公开数据集LVIS和ImageNet上预训练的模型权重作为初始化。CLIP模型选择ViT-L-14（只用text encoder）来得到类别名称的embeddings。分类的损失函数为BCE Loss。

4、Learnable Prompt

为了获取类别名称的text embeddings，在训练过程中学习一组长度为4的learnable prompt以获得更好的text表征。具体方案参考了coop[2]。

5、重要参数

模型初始化：使用LVIS和ImageNet上预训练的模型作为初始化。
总迭代次数：18000。
image-level分支的batch size: 8x96，检测分支batch size: 8x4。
image-level的权重：1.2，det分支权重：1.0。
图像分辨率：image-level分支448，检测分支 896。

6、测试结果

这里介绍的测试结果是随着我们模块和参数改变的变化，我们初始使用R50 backbone作为baseline, image-level分支的batch size为32，训练资源8xV100，增加到64之后需要8xA100 （或者整体batch size缩小，迭代数增加）。以下结果均来自初赛。

ADetecting Twenty-thousand Classes using Image-level Supervision, Zhou et.al ECCV 2022.
Prompt Learning for Vision-Language Models, Zhou et.al IJCV 2022.

亚军方案讲解（第二名）

团队介绍

来自华中科技大学的团队，成员有冷福星，易成龙。