本文经计算机视觉研究院公众号授权转载,转载请联系出处。
论文地址:https://arxiv.org/abs/2209.01589
一、总概述
在本研究中,研究者深入研究了半监督目标检测(SSOD)中伪目标的不一致性。核心观察结果是,振荡的伪目标破坏了精确的半监督检测器的训练。它不仅给学生的训练注入了噪声,而且导致了分类任务的严重过拟合。因此,研究者提出了一个系统的解决方案,称为一致教师,以减少不一致。首先,自适应锚分配(ASA)取代了基于静态IoU的策略,使学生网络能够抵抗噪声伪边界盒;然后,通过设计三维特征对齐模块(FAM-3D)来校准子任务预测。它允许每个分类特征在任意尺度和位置自适应地查询回归任务的最优特征向量。最后,高斯混合模型(GMM)动态地修正了伪框的得分阈值,从而稳定了基本事实的数量
二、动机
在这项研究中,研究者指出,半监督检测器的性能仍然在很大程度上受到伪目标不一致性的阻碍。不一致意味着伪框可能非常不准确,并且在训练的不同阶段变化很大。因此,不一致的振荡边界盒(bbox)会使SSOD预测产生累积误差。与半监督分类不同,SSOD有一个额外的步骤,即为每个RoI/锚点分配一组伪框作为密集监督。常见的两级和单级SSOD网络采用静态的锚分配标准,例如IoU分数或中心度。据观察,静态作业对教师预测的边界框中的噪声很敏感,因为假边界框中一个小的扰动可能会极大地影响作业结果。因此,它导致未标记图像上的严重过拟合。
为了验证这一现象,在MS-COCO 10%数据的基础上,用基于IoU的标准分配来训练单级探测器。如下图所示,教师输出的微小变化导致伪框边界中的强噪声,导致在基于IoU的静态分配下,错误目标与附近对象相关联。这是因为一些未激活的主播在学生网络中被错误地分配为阳性。因此,网络会过拟合,因为它会为相邻对象生成不一致的标签。在未标记图像的分类损失曲线中也观察到过拟合。
不一致是指伪框可能高度不准确,并且在不同的训练阶段差异很大。
Motivation: Inconsisteny For SSOD
(左)比较“Mean-Teacher ”和“Consistent-Teacher”的训练损失。在Mean-Teacher中,不一致的伪目标导致分类分支上的过拟合,而回归损失变得难以收敛。相反,新提出的方法为学生设定了一致的优化目标,有效地平衡了这两项任务并防止了过度拟合。
(右)伪标签和分配动态的快照。绿色和红色的框指的是北极熊的真值和伪值。红点是为伪标签指定的定位框。热图表示教师预测的密集置信度分数(越亮越大)。附近的木板最终在基线中被错误地归类为北极熊,而提出的自适应分配防止了过度拟合。
三、实验及结果
研究者的工作解决了SSOD的不一致问题。以下是训练过程中不同时间步长的一些样本检测结果:
Red: False Positive; Blue: True Postive; Green: Ground-truth
Mean-Teacher
Consistent-Teacher
Mean-Teacher
Consistent-Teacher