很多深度学习方法实现了不错的抠图效果,但它们无法很好地处理高分辨率图像。而现实世界中需要使用抠图技术的图像通常是分辨率为 5000 × 5000 甚至更高的高分辨率图像。如何突破硬件限制,将抠图方法应用于高分辨率图像?来自 UIUC、Adobe 研究院和俄勒冈大学的研究者提出了一种新方法。
抠图是图像和视频编辑与合成的关键技术。通常,深度学习方法会以整个输入图像和相关的 trimap 作为输入,使用卷积神经网络来推断前景蒙版(alpha matte)。这种方法在图像抠图领域实现了 SOTA 结果。但是,由于硬件限制,这些方法在实际的抠图应用中可能会失败,因为现实世界中需要抠图的输入图像大多具备很高的分辨率。
近日,来自伊利诺伊大学香槟分校(UIUC)、Adobe 研究院和俄勒冈大学的研究者提出了一种名为 HDMatt 的新方法,这是首个处理高分辨率输入图像的深度学习抠图方法。
早在 2017 年,Adobe 等机构就发表论文《Deep Image Matting》,采用大规模数据集与深度神经网络学习图像的自然结构,进一步分离图像的前景与背景。而那篇论文的一作 Ning Xu 正是这篇论文的第二作者。只不过,研究者这次将矛头对准了高分辨率图像。
论文地址:https://arxiv.org/pdf/2009.06613.pdf
具体来说,HDMatt 方法使用新型模块设计,以基于 patch 的剪裁 - 拼接方式(crop-and-stitch)为高分辨率输入图像进行抠图,进而解决不同 patch 之间的语境依赖性和一致性问题。基于 patch 的原版推断方法单独计算每个 patch,而该研究提出了新的模块——CrossPatch Contextual module (CPC),该模块由给定的 trimap 指导,对跨 patch 语境依赖性进行建模。
大量实验表明了该方法的有效性及其对于高分辨率输入图像的必要性。HDMatt 方法在 Adobe Image Matting 和 AlphaMatting 基准上均实现了新的 SOTA 性能,并且在更真实的高分辨率图像上获得了优秀的效果。
下图展示了,在处理高分辨率图像时,HDMatt 方法与之前最优方法 ContextNet 的对比结果:
ContextNet 分别应用了下采样 (DS) 和剪裁 (C) 策略。从图中可以看出,DS 导致细节模糊,剪裁则导致跨 patch 不一致问题。
而该研究提出的 HDMatt 方法解决了这两个缺陷,抠图效果与真值(上图 c)最接近,这说明该方法能够拟合精细细节。
该研究的主要贡献有:
这是首个基于深度学习的高分辨率图像抠图方法,在硬件资源限制下使现实世界中的高质量 HR 抠图成为现实。
提出一种新型模块 CPC,用来捕获 patch 之间的长程语境依赖性。在 CPC 内部,新提出的 Trimap-Guided Non-Local(TGNL)操作旨在高效传播来自 reference patch 不同区域的信息。
在定量和定性实验方面,HDMatt 方法在 Adobe Image Matting (AIM)、AlphaMatting 基准和真实高分辨率图像数据集上均实现了新的 SOTA 性能。
HDMatt 方法
为了解决高分辨率图像的抠图问题,该研究提出 HDMatt 方法,该方法首先将输入图像和 trimap 剪裁为 patch,然后估计每个 patch 的 alpha 值。仅使用一个 patch 的信息会导致信息损失以及不同 patch 之间的预测不一致问题。因此,该研究提出新型 Cross-Patch Context Module (CPC) 模块,高效利用每个 query patch 的跨 patch 信息。最后,将每个 patch 的估计 alpha 值连接,输出整个图像最终的前景蒙版。
下图 2 展示了 HDMatt 方法的整体框架:
下图 3 展示了 CPC 模块的工作流程:
实验
Adobe Image Matting 基准数据集
下表 1 展示了 HDMatt 方法与其他 SOTA 方法在 Adobe Image Matting 测试集上的性能对比结果。HDMatt 方法在所有评估度量指标上均优于其他方法。
研究人员还对这些方法(包括 IndexNet 和 ContextNet)的实际效果进行了对比,如下图 4 所示:
从中可以看出,HDMatt 方法能够更好地处理大型未知区域(即极少前景或背景信息的区域)。
AlphaMatting 基准数据集
表 2 列出了在 AlphaMatting 基准数据集上 SAD 指标表现最优的四个方法,HDMatt 方法在具备较大或用户 trimap 的图像上表现优异。这进一步证实了,当 trimap 中存在大量未知区域时,HDMatt 方法可以有效捕获长程语境依赖性。
下图展示了不同方法在 AlphaMatting 测试集上的抠图结果,自左向右分别是输入图像、Trimap、AdaMatting [1]、SampleNet [35]、GCA Matting [24] 和 HDMatt。从图中可以看出,最右一列 HDMatt 方法的抠图效果最精细。
真实图像
除了这些数据集以外,研究人员还在网上收集了一些分辨率最高可达 6000 × 6000 的高分辨率图像,并在这些真实图像上进行测试。
下图 5 展示了将整张图像作为输入时,IndexNet、ContextNet 和 HDMatt 方法的性能。从结果中可以看到,HDMatt 方法能够提取更精细精确的细节,同时推断速度也更快。不过,该方法仍丢失了一些最精微的细节。
基于 Context Patch 的注意力可视化
下图 7 展示了在给定 query patch 上基于选定 context patch 的注意力图:
控制变量研究
下表展示了控制变量研究的结果: