GPT理解的CV：基于Yolov5的半监督目标检测-51CTO.COM

本文经计算机视觉研究院公众号授权转载，转载请联系出处。

01 概要

半监督目标检测（SSOD）已经成功地提高了R-CNN系列和无锚检测器的性能。然而，一级基于锚的检测器缺乏生成高质量或灵活伪标签的结构，导致SSOD中存在严重的不一致性问题。在今天分享中，提出了一个高效的教师框架，用于可扩展和有效的基于单阶段锚的SSOD训练，该框架由密集检测器、伪标签分配器和Epoch适配器组成。Dense Detector是一个基线模型，它以YOLOv5为灵感，使用密集采样技术扩展了RetinaNet。高效教师框架引入了一种新的伪标签分配机制，称为伪标签分配器，它更精细地利用了密集检测器中的伪标签。

Epoch Adaptor是一种为密集探测器提供稳定高效的端到端SSOD训练计划的方法。伪标签分配器防止了在师生相互学习机制期间由大量低质量伪标签引起的可能干扰密集检测器的偏差的发生，并且Epoch适配器利用域和分布自适应来允许密集检测器学习全局分布的一致特征，使得训练与标记数据的比例无关。我们的实验表明，高效教师框架在VOC、COCO标准和COCO附加方面取得了最先进的结果，使用的FLOP比以前的方法更少。据我们所知，这是将SSOD应用于YOLOv5的第一次尝试。

02 新框架

高效教师（Efficient Teacher）是一种新颖高效的半监督目标检测框架，它显著提高了基于单级锚点的检测器的性能。该框架基于师生相互学习的方法，如下图所示，灵感来自以前的工作。提出的伪标签分配器方法根据伪标签的得分将其分为可靠和不确定的伪标签，其中可靠的伪标签用于默认监督训练，不确定的用于指导软损失学生模型的训练。Epoch-Adaptor方法通过在标记数据和未标记数据之间进行域自适应，并计算每个历元中伪标签的阈值，来加速收敛。在整个培训过程中，教师模型采用指数移动平均（EMA）技术进行更新。

比较RetinaNet和检测聚类器的伪指标分布图，发现：

（a）RetinaNet使用了更少的输入数据，产生了更高的分辨率，暗色表示分数较低；
（b）检测聚类器利用更多的输入数据，根据物体特征和分类结果产生了更强健和更密集的反应。

伪标签过滤是 SSOD 中常用的一种方法，阈值设置太低会产生错误的伪标签，而阈值设置太高则可能排除可靠的伪标签，从而导致分配不佳，进而影响网络训练的效果。为了解决这个问题，我们提出了伪标签分配器方法，该方法根据高低阈值将伪标签分为可靠和不可靠的类别，分别为目标 L 提高单目标 SSOD 中伪标签的质量。

Main epoch 表示整个训练期间不中断，并且在执行期间没有任何新权重的加载。有效教师的训练策略：（a）在标记数据上进行监督训练，然后在未标记数据上进行基于标记的 SSOD 训练；（b）在标记数据上进行监督训练，并在未标记数据上进行基于标记的 SSOD 训练以外的额外基于标记的 SSOD 训练；（c）在标记数据和未标记数据上进行端到端训练，并使用适应域和分布的 Epoch 适配器以改进收敛和特征分布。

03 实验

Experimental results on COCO-standard (AP50:95)

PASCAL-VOC的实验结果。†表示使用ImageNet预训练骨干来初始化高效教师