本文经计算机视觉研究院公众号授权转载,转载请联系出处。
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9521517
一、背景
目标检测是计算机视觉中的一项基本任务,许多研究人员已经应用水平边界框来定位图像中的物体。 水平边界框的使用可以使候选区域的表示更加简洁直观。 在许多基于深度学习的方法中,往往需要大量标记样本来训练目标检测器模型,使用轴平行标记框可以大大提高标记效率,快速获取大量标记样本。 此外,水平边界框涉及的参数较少,简化了检测模型的训练过程。 因此,在大多数目标检测方法中,使用水平边界框来表示遥感图像中目标的大致范围,如下图所示。
然而,航拍图像中的物体通常是任意方向的。因此,使用水平边界框来检测目标会引起几个问题。首先,这种类型的物体检测框通常包含许多背景区域。如上图(a)所示,图中大约60%的区域属于背景区域。检测框内存在过多的背景区域,不仅增加了分类任务的难度,而且会导致目标范围表示不准确的问题。其次,水平边界框会导致检测框之间出现强烈重叠,如上图(b)所示,降低检测精度。最后,由于飞机、船舶、车辆等图像中的物体包含运动方向信息,如果使用水平边界框,则无法获得目标运动方向的信息。
上述三个问题可以通过使用带有角度信息的旋转检测框有效解决,如上图所示。首先,旋转检测可以精确定位图像中的物体,并且边界框几乎不包含背景区域,从而减少背景对物体分类的影响。其次,旋转检测框之间几乎没有重叠,从而可以更清晰地识别框内包含的物体。最后,可以从旋转检测框粗略得到物体的运动方向信息,从而判断物体的运动轨迹。综上所述,在遥感图像目标检测任务中使用带有角度信息的旋转检测框获得了优越的性能。
二、前言
任意方向的目标检测是一项具有挑战性的任务。由于遥感图像中的物体方向是任意的,使用水平边界框会导致检测精度低。现有的基于回归的旋转检测器会导致边界不连续的问题。
在今天的分享中,研究者提出了一种基于角度分类的遥感图像目标检测方法,该方法使用带有角度信息的旋转检测边界框来检测对象。具体来说,研究者将神经架构搜索框架与特征金字塔网络 (NAS-FPN) 模块结合到密集检测器 (RetinaNet) 中,并在角度分类中使用二进制编码方法。这种方法减少了背景影响,使得检测框之间几乎没有重叠。根据检测框的角度,我们可以推断出目标的运动方向信息,进一步确定目标的运动轨迹。
研究者对一个可用于航空影像 (DOTA) 中的目标检测的大型公共数据进行了消融实验,以验证该方法中每个模块的有效性,并将该方法与其他几种检测方法进行比较。实验结果证明了新提出方法的有效性。
三、新框架
新提出的旋转检测器框架如上图所示。网络基于RetinaNet框架。图中标记为C2、C3、C4的特征图是由深度卷积神经网络提取的。该方法的总体步骤如下:首先利用特征提取网络对遥感图像中的特征进行提取,利用NAS-FPN对提取的特征进行融合,得到不同尺度的特征图。然后,使用长边定义方法来表示旋转检测框,并在框回归任务中使用二进制编码标记技术将角度回归问题转化为角度分类问题。下面详细描述该方法中的一些重要结构。
NAS-FPN
在NAS-FPN中,最重要的结构是由特征图节点集合、操作池和搜索终止条件组成的合并单元结构。下图简要描述了特征图的搜索过程。
1)从特征图节点集中随机选择一个特征图作为输入之一。初始特征图节点集包含五个尺度的特征图,表示为 {C1,C2, C3, C4, C5}。
2)从特征图节点集中随机选择另一个特征图作为另一个输入。
3)选择输出特征图的分辨率。
4)在操作池中选择一个操作对(1)(2)中选择的特征图节点进行操作,产生与输出特征图分辨率相同的特征图,并将该特征图加入到特征图节点集合中选择。
5) 循环重复上述步骤。搜索的终止条件是生成五个与初始特征图分辨率相同的特征金字塔网络,记为{P1, P2, P3, P4, P5}。
ROTATION DETECTION FRAME
典型的角度编码方法有三种,包括两种不同角度范围的五参数方法和一种八参数方法。详细情况如下:
角度范围为90°的五参数法(OpenCV定义法):其示意图如上图所示。该定义法包含五个参数[x,y,w,h,θ]。其中,x和y为旋转坐标系的中心坐标,θ为旋转坐标系与x轴的锐角,逆时针方向指定为负角,因此角度范围为[−90° , 0); 旋转框的宽度w为旋转框所在的边角,旋转框的高度h为另一边。
180°角范围的五参数法
八参数法
八参数法:该定义方法示意图如上图所示,该定义方法包含8个参数[a1,a2,b1,b2,c1,c2,d1,d2], 定义的左上角为起点,其余点按逆时针顺序排列。旋转坐标系的表示不限于上述三种方法,旋转坐标系其余部分的表示可以通过上述三种方法的变换得到。
ANGLE CODING METHOD
90°范围的五参数定义方法的问题
八参数四边形定义方法的问题
角度编码方法:
四、实验及可视化
实验环境
DOTA数据集上的性能比较