本文经计算机视觉研究院公众号授权转载,转载请联系出处。
论文地址:https://arxiv.org/pdf/2201.02314.pdf
一、前言
当真正的退化未知或与假设不同时,预处理模块和随后的高级任务(如目标检测)都会失败。在这里,研究者提出了一个新的框架,RestoreDet,来检测退化的低分辨率图像中的目标。RestoreDet利用下采样降级作为自监督信号的一种转换,以探索针对各种分辨率和其他降级条件的等变表示。
具体来说,通过编码和解码一对原始和随机退化图像的退化变换来学习这种内在的视觉结构。该框架可以进一步利用具有任意分辨率恢复解码器的高级SR架构来从退化的输入图像重建原始对应关系。表示学习和目标检测都以端到端的训练方式联合优化。RestoreDet是一个通用框架,可以在任何主流目标检测架构上实现。广泛的实验表明,基于CenterNet的框架在面对变质退化情况时与现有方法相比取得了卓越的性能。代码很快就会发布。
二、背景
由于大规模数据集,高级视觉任务(即图像分类、目标检测和语义分割)取得了巨大成功。这些数据集中的图像主要由具有更高分辨率和信噪比(SNR)的商用相机捕获。在这些高质量图像上进行训练和优化后,高级视觉在低分辨率或低质量图像上的性能会下降。为了提高视觉算法在退化的低分辨率图像上的性能,Dai等人[Is image super-resolution helpful for other vision tasks?]提出了第一个全面的研究,提倡使用超分辨率(SR)算法对图像进行预处理。其他高级任务,如人脸识别、人脸检测、图像分类和语义分割,也受益于恢复模块以提取更多区分特征。
三、新框架分析
研究者不是在严格假设下使用恢复模块显式增强输入图像,而是利用针对各种分辨率和退化状态的内在等变表示。基于上图所示的编码表示,研究者提出了 RestoreDet,这是一种用于在退化的LR图像中进行目标对象检测的端到端模型。为了捕捉视觉结构的复杂模式,利用下采样退化变换组作为自我监督信号。在训练过程中,通过随机退化变换t从原始HR图像x生成退化的LR图像t(x)。如上图所示,这对图像被送入编码器E以获取其潜在特征E(x)和E(t(x))。
为了训练编码器E学习退化等变表示,研究者首先引入一个变换解码器Dt来表示E(x)和E(t(x))解码应用的退化变换t。如果可以重建转换,则表示应尽可能捕捉它们在不同转换下如何变化的动态。
为了进一步利用快速增长的SR研究的优势,研究者引入了任意分辨率恢复解码器 (ARRD) Dr。ARRD从各种退化的LR图像t(x)的表示E(t(x))重建原始HR数据 x。ARRD Dr将监督编码器E对有助于后续任务的详细图像结构进行编码。基于编码表示E(t(x)),目标检测解码器Do然后执行检测以获取对象的位置和类别。在推理过程中,目标图像直接通过上图中的编码器E和目标检测解码器Do进行检测。与基于预处理模块的方法相比,研究者的推理pipeline计算效率更高。
为了覆盖实际场景中的各种退化,根据实际的下采样退化模型,通过随机抽样变换 t来生成退化的t(x)。如上图所示,变换t由下采样率s、退化核k和如下等式中的噪声水平n表征。
上图(a)是anchor free框架的CenterNet。图(b)说明了如何基于CenterNet实现的RestoreDet。详细的训练过程在Algo.1中给出。在训练RestoreDet时,原始HR图像x和变换后的退化LR图像t(x)被发送到编码器E以对退化等变表示进行编码。在这里,直接使用CenterNet的编码器E,但将其复制到共享权重Siamese结构中,分别接收HR和LR图像。
Algo.1
四、实验及可视化
MS COCO 和KITTI数据集上性能比较
(a)/(b) is CenterNet trained on normal images and tested on normal/degraded down4 testset, (c)/(d)/(e) is CenterNet tested on the degraded image restored by individual SR algorithm RRDB/RealSR/BSRGan. (f) is the detection result of our RestoreDet and we use the output of ARRD Dr as background images.