图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)

发布于 2024-8-12 08:22
浏览
0收藏

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

文章链接:https://arxiv.org/pdf/2407.17020
git链接:https://hyangyu.github.io/EAFormer/

亮点直击

  • 为了在文本边缘区域实现更好的分割性能,本文提出了边缘感知Transformer(EAFormer),该方法明确预测文本边缘,并利用这些边缘来引导后续的编码器。
  • 针对COCO_TS和MLT_S数据集的标注质量较低的问题,对这些数据集进行了重新标注,以提高EAFormer在这两个数据集上的实验结果的可靠性。
  • 在六个场景文本分割基准上的广泛实验表明,所提出的EAFormer能够达到最先进的性能,尤其在文本边缘区域表现更佳。

场景文本分割旨在从场景图像中裁剪文本,这通常用于帮助生成模型编辑或去除文本。现有的文本分割方法通常涉及各种文本相关的监督以获得更好的性能。然而,大多数方法忽略了文本边缘的重要性,而文本边缘对下游应用至关重要。本文提出了边缘感知Transformer(Edge-Aware Transformers),简称EAFormer,以更准确地分割文本,特别是文本的边缘。


具体而言,首先设计了一个文本边缘提取器,以检测边缘并滤除非文本区域的边缘。然后,提出了一个边缘引导编码器,使模型更加关注文本边缘。最后,采用了一个基于MLP的解码器来预测文本mask。在常用基准上进行了广泛的实验,以验证EAFormer的有效性。实验结果表明,所提出的方法在文本边缘的分割上优于以前的方法。考虑到一些基准数据集(如COCO_TS和MLT_S)的注释不够准确,无法公平评估本文的方法,重新标注了这些数据集。通过实验观察到,当使用更准确的注释进行训练时,本文的方法能够获得更高的性能提升。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

方法

本节详细介绍了所提出的EAFormer。首先,介绍EAFormer的提出动机。然后,详细说明EAFormer的每个模块,包括文本边缘提取器、边缘引导编码器和文本分割解码器。最后,介绍了本文方法的损失函数。

动机

不可否认,文本边缘对场景文本分割任务至关重要,尤其是对于其下游任务如文本擦除。准确分割文本边缘可以为文本擦除模型提供更多的背景信息,以填补文本区域。如下图1所示,利用一个预训练的修复模型,输入不同类型的文本mask,以在场景图像中擦除文本。通过实验观察到,文本边界框mask过于粗糙,无法为修复模型提供更多的背景信息。此外,边缘分割不准确的文本mask使得修复模型错误地将属于文本的像素视为背景,导致擦除效果不佳。只有提供具有准确边缘分割的文本mask时,修复模型才能生成令人满意的文本擦除结果。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。为了验证其感知文本边缘的能力,对主干网络输出的特征进行了K均值聚类,其中K设置为3,分别代表背景、文本边缘和文本中心。通过下图2中的可视化结果,观察到该方法在感知文本边缘方面仍存在一定的不足。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

此外,研究者们发现传统的边缘检测算法可以获得准确的文本边缘,这可能有助于场景文本分割任务。然而,由于传统的边缘检测方法无法区分文本区域和非文本区域,因此大多数边缘都被检测到了非文本区域。如果直接将边缘检测结果作为输入来辅助文本分割,可能会使文本分割模型产生混淆,从而对其性能产生不利影响。

边缘感知Transformer(EAFormer)

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

边缘引导编码器。 由于SegFormer在语义分割中表现出色,采用它作为边缘引导编码器的基础框架。如前面图3所示,边缘引导编码器由四个阶段组成,过滤后的文本边缘在第一个阶段被合并。每个编码阶段包含三个子模块:重叠补丁embedding、有效自注意力和前馈网络。重叠补丁embedding用于提取每个补丁周围的局部特征。随后,这些特征被输入到自注意力层中,以挖掘像素之间的相关性。基本自注意力层的公式如下:

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

损失函数

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

实验

实施细节

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

实验结果

定量比较。 为了全面评估EAFormer,研究者们在英文和双语文本分割数据集上进行了实验。下表2显示了在五个英文文本分割数据集上的实验结果。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

与之前的方法相比,EAFormer在大多数基准测试中在前景交并比(fgIoU)和F值上都有明显的提升。例如,在TextSeg数据集上,EAFormer在fgIoU和F值上分别超越了之前的SOTA方法TextFormer  0.64% 和0.6%。尽管原始的COCO_TS和MLT_S数据集有粗糙的注释,所提出的EAFormer仍然能表现出更好的性能,例如在COCO_TS数据集上比 TFT 提升了7.63%的fgIoU。考虑到基于不准确注释的实验结果不够令人信服,重新标注了COCO_TS和MLT_S的训练数据集和测试数据集。基于重新标注的数据集的实验结果显示在下表3中。实验表明,当使用注释更准确的数据集进行训练和测试时,EAFormer仍然能够实现显著的性能提升。与原始数据集的结果相比,重新标注数据集上的性能似乎下降了很多。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

以下两个原因可能解释了这一现象:

  1. 数据集中有许多模糊的文本,这确实给模型处理文本边缘带来了挑战;
  2. 重新标注的测试数据集更为准确,评估中没有忽略的区域。

此外,还在双语文本分割数据集BTS上进行了实验,结果显示在下表4中。尽管PGTSNet不公平地引入了一个预训练的文本检测器,EAFormer在fgIoU/F值上仍然能实现1.6%/2.8%的提升,这验证了所提出方法的有效性。由于引入了一个轻量级的文本检测头,不可避免地增加了更多参数。评估了参数数量和推理速度。与之前的SOTA方法TextFormer(85M参数和每张图像0.42秒)相比,所提出的模型有92M参数,平均每张图像需要0.47秒。虽然参数数量略有增加,但本文的方法仍能显著提升性能。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

定性比较。 研究者们还通过可视化将EAFormer与之前的方法在分割质量上进行了比较。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。此外,对于COCO_TS和MLT_S,比较了基于原始和修改后注释的分割结果。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

消融研究

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

边缘过滤和边缘引导。 在所提出的EAFormer中,文本边缘提取器中的边缘过滤和边缘引导编码器中的边缘引导是两个关键组件。为了评估这两种策略的性能提升效果,进行了消融实验,结果见下表6。请注意,当仅使用边缘过滤时,提取的边缘信息与输入图像拼接后输入到基于SegFormer的编码器中。如表6所示,引入边缘过滤可以显著提升性能。然而,如果仅引入边缘引导,本文的方法性能较差。一个可能的原因是非文本区域的边缘引入了更多的干扰信息,导致模型无法有效利用提取的边缘来辅助文本分割。因此,边缘过滤和边缘引导对本文的方法都是必要的,当两者都被采用时,EAFormer能够实现SOTA性能。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

讨论

过滤非文本区域的边缘。 在文本边缘提取器模块中,提出了过滤非文本区域边缘信息的方法,以避免这些信息对模型性能的负面影响。在消融实验部分中,可以得知,过滤非文本区域的边缘信息可以明显提高性能。通过可视化(见补充材料),观察到,当所有边缘信息用于辅助分割时,模型会错误地认为具有边缘信息的区域应该被分类为前景。因此,为了给模型提供明确的边缘引导,所提出的方法仅保留文本区域的边缘信息作为输入。

在不同层引入文本边缘。 在边缘引导编码器中,通过对称交叉注意机制仅在第一阶段提取增强的边缘特征信息。众所周知,低层特征对文本边缘信息更为敏感。在下图6中对不同阶段的特征进行聚类结果的可视化,结果表明只有第一阶段的特征关注边缘信息。因此,在早期阶段引入检测到的边缘是合理且有效的。还尝试在其他阶段引入边缘引导进行实验。实验结果表明,检测到的边缘引入的阶段越高,EAFormer的性能提升越小。特别是,当在第三或第四阶段引入检测到的边缘时,EAFormer的性能甚至低于基线。

图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)-AI.x社区

利用现成的文本检测器。 在文本边缘提取器中,采用了一个轻量级的文本检测器,包括一个基于ResNet的骨干网络和一个MLP解码器。实际上,可以利用一个在文本检测数据集上预训练的现成文本检测器,这可以帮助EAFormer在实际应用中取得更好的性能。由于这可能对之前的方法不公平,只探讨了EAFormer的性能上限。在实验中,使用预训练的DBNet 替换轻量级文本检测器模块,EAFormer在TextSeg上的性能可以达到新的SOTA水平(fgIoU/F值分别为90.16%和95.2%)。

与之前边缘引导方法的区别。 实际上,将边缘信息融入分割中是一个被广泛探索的策略。然而,本文的方法与之前的工作仍有一些区别。首先,BCANet和 BSNet需要边缘监督,而本文的方法直接使用Canny提取边缘。尽管EGCAN也使用Canny,但本文的方法额外引入了边缘过滤以保留有用的边缘信息,这特别为文本分割设计。此外,EGCAN在所有编码器层中融合边缘信息,而本文的方法通过设计的对称交叉注意机制仅在第一层融合边缘信息。

局限性。 为了过滤非文本区域的边缘,引入了一个轻量级的文本检测器,这可能会略微增加可学习参数的数量。此外,仅利用了现成的边缘检测算法Canny来提取文本边缘,而没有使用更先进的深度学习边缘检测方法。引入SOTA边缘检测方法可能会进一步提高本文方法的性能。

结论

本文提出了边缘感知Transformer(Edge-Aware Transformers),称为EAFormer,以解决文本边缘处文本分割不准确的问题。具体而言,采用传统的边缘检测算法Canny来提取边缘。为了避免涉及非文本区域的边缘,引入了一个轻量级文本检测模块,用于过滤掉无用的边缘,以进行文本分割。此外,基于SegFormer,提出了一个边缘引导编码器,以增强其感知文本边缘的能力。考虑到某些数据集的低质量标注可能影响实验结果的可信度,对这些数据集进行了重新标注。在公开可用的基准测试上进行了广泛的实验,SOTA结果验证了EAFormer在文本分割任务中的有效性。


本文转自   AI生成未来 ,作者:Haiyang Yu等


原文链接:​​https://mp.weixin.qq.com/s/lZRe8ONzzQt5uEobqVGXVw​

收藏
回复
举报
回复
相关推荐