CVPR 2024 视频场景解析挑战赛第一名方案详解

发布于 2024-6-5 10:24
浏览
0收藏

像素级场景理解是计算机视觉的基础问题之一,旨在识别给定图像中每个像素的对象类、mask和语义。与图像场景解析相比,视频场景解析引入了时间信息,可以有效提高预测的一致性和准确性,因为现实世界实际上是基于视频的,而不是静态的。


本文采用基于不可靠伪标签的半监督视频语义分割方法。然后,将教师网络模型与学生网络模型集成,生成伪标签并对学生网络进行再训练。本方法在开发测试和最终测试中分别获得了63.71%和67.83%的mIoU分数在CVPR 2024的野外挑战赛中获得了视频场景解析的第一名

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

简介

Video Scene Parsing in the Wild(VSPW)是一个视频语义分割数据集,包含3536个视频和124个类别的标注。由于各种语义分割数据集的可用性,图像语义分割取得了重大进展。该挑战旨在为VSPW中测试集视频的每个视频帧分配逐像素语义标签。挑战的突出评估指标是mIoU。随着深度神经网络的发展和大规模标注数据的可用性,视频语义分割(VSS)的能力得到了显著扩展。


VSS是视频图像分割的时空变化,旨在预测连续视频帧中的像素标签。与图像语义分割相比,现有的大多数VSS方法都强调对局部信息的利用。[4-6]这几种方法利用光流预测对帧之间的时间信息进行建模。然而,光流可能会导致不平衡的张力。ETC在每帧分段预测中使用了时间损失和新的速度一致性知识提取,作为光流的有效替代。MRCFA挖掘跨帧仿射关系,以实现更好的时间信息聚合。TMANet是第一个使用时间记忆注意力模块来捕捉VSS中帧之间的时间关系的工作。


LLVSS设计了一种高效的帧工作,包括自适应特征传播和自适应关键帧调度。DVIS通过将VSS框定为初始分割任务,然后进行跟踪,随后使用综合视频数据细化分割结果,从而简化了分割过程。CVPR 2023 PVUW VSS Track的第一位解决方案专注于增强具有对比损失的时空相关性,并利用具有标签映射的多数据集训练来提高模型性能。

方法

本节描述了网络的总体架构。然后介绍了一种基于不可靠伪标签的半监督视频语义分割方法。首先在有标签数据上训练教师网络和学生网络,然后使用教师网络生成伪标签,将它们与原始数据集组合形成新的数据集,然后对学生网络进行再训练。通过半监督训练,提高了模型在未标注数据集上的性能。

概述

Transformer是一种基于保持机制的神经网络模型,在自然语言处理和其他序列数据处理任务中取得了显著成功。近年来,随着Transformer技术的发展,它在分割领域也取得了显著进展。鉴于One peace算法在ADE2K数据集的语义分割领域取得了最先进的性能,选择它作为教师网络。同时选择ViT Adapter算法作为学生网络。

半监督方法

随着深度学习方法的发展,分割性能有了质的提高。然而,高性能的深度学习模型需要大量的数据和标注,尤其是像素级的标签,这需要巨大的人力和时间成本投资。因此,基于半监督学习的方法受到研究者的青睐。半监督学习的核心问题是有效地利用未标注样本作为标注样本的补充,从而提高模型的性能。传统的半监督方法通过筛选样本来保持高置信度的预测结果,但这些结果导致大量未标注的数据得不到有效利用,导致模型训练不足。对于一些不可预测的类别,很难将正确的标签分配给未标注的像素。因此,我们将不可靠的预测结果视为负样本来参与模型训练,让所有未标注的样本在训练过程中发挥有效作用。

伪标签策略

为了避免过拟合错误的伪标签,使用每个像素的概率分布熵来过滤高质量的伪标签。具体而言,将表示为分割头在像素j处为第i个未标注图像生成的softmax概率,其中C是类的数量。

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

其中()是第c维上的的值。将像素j处的第i个未标注图像的伪标签定义为:

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

使用像素级熵来区分伪标签中的可靠像素和不可靠像素。

方法的pipeline

如图1所示,如何从未标注的数据中提取有效的信息是一个关键因素,因此使用半监督学习方法。具体来说,在第一步中,使用标注的训练数据来训练教师网络模型和学生网络模型,然后使用多尺度和水平翻转来增强测试和模型集成以生成伪标签。

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

然后,将未标注和标注的数据集组合成一个新的数据集,并继续微调学生网络模型。对于伪标签,使用像素级熵来过滤可靠像素和不可靠像素。对于作为负样本的不可靠像素,使用比较损失训练来确保在训练过程中可以有效地使用整个伪标签。

损失

对于每个标注的图像,目标是最小化等式(4)中的标准交叉熵损失。对于每个未标注的图像,首先使用教师模型进行预测。然后,使用像素级熵来忽略方程(5)中不可靠的像素级伪标签和无监督损失。使用对比损失来充分利用等式(6)中排除的不可靠像素。为了获得更好的分割性能,最大限度地减少整体损失,可以将其形式化为:

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

实验

本部分将描述方法的实现细节,并在PVUW2024挑战测试集上报告结果。

数据集

VSPW数据集标注了124类真实世界场景,其中包含3536个视频,总共251633帧。在这些视频中,训练集中有2806个视频,验证集中有343个视频,测试集中有387个视频。为了丰富我们的训练样本,训练集和验证集都用于训练。由于Transformer模型中的参数数量很大,增加训练样本的数量有利于提高模型的性能。引入了额外的数据来训练我们的模型,例如ADE200和COCO数据集。在训练阶段,我们的模型的主干在ImageNet22K数据集上进行预训练。COCO数据集用于在预训练阶段训练整个模型。通过标签重映射将COCO和ADE20k数据集标签映射到VSPW数据集,并且将VSPW中不存在的类别标为255。

训练配置

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

消融研究

随着transformer技术的快速发展,基于transformer的模型在密集目标检测和分割领域表现出了强大的特征表达能力,甚至在一些复杂场景中保持了良好的鲁棒性。因此,探索了基于transformer的模型在视频语义分割任务中的应用。不同骨干和方法的实验结果如表1所示。

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

从表中可以看出,选择One peace作为骨干的性能明显优于Swin-L、BEiT-L和ViT-Adapter-L。在随后的实验中,继续探索网络输入分辨率、多尺度和翻转增强测试、半监督训练和模型集成对分割性能的影响。

半监督训练

半监督学习旨在从未标注的数据中提取有效的信息,从而提高模型的性能。受此启发,选择了一个地方作为教师网络,ViT Adapter作为学生网络。首先,在标注的数据集上训练教师和学生网络,并通过多尺度和翻转增强的测试和模型验证生成伪标签。将未标注和标注的数据集组合到一个新的训练集中,以继续微调学生网络。


相信在半监督模型训练中,伪标签的每个像素都是重要的,即使它的预测是模糊的。直观地说,不可靠的预测可能会在概率最高的类别中直接混淆,但对于不属于其他类别的像素,它们应该具有可信度。因此,这样的像素可以被判断为最不可能类别中的负样本。从表3中可以看出,半监督训练和模型集成将mIoU提高了约0.4个百分点。

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

推理增强

在推理阶段,将继续探索影响模型性能的因素。通过对每个标度使用多尺度和水平翻转在mIOU度量上获得更高的分数,其中所选标度为[512./896.640./896.768/896.896.1024./896.1152./896.1280./896.1408./896.]。从表2和表3中可以看出,与单尺度结果相比,多尺度和水平翻转结果使mIoU指标增加了0.4个百分点。

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

为了进一步提高模型的性能,将裁剪尺寸为896的教师模型和学生模型集成在一起,并在PVUW测试部分1的mIOU上获得最高分数。通过结合多尺度和水平翻转增强测试、半监督训练学习和多模型集成技术,在PVUW语义分割挑战的最终测试集上取得了最先进的结果。最后,在最终测试集中获得了第一名,如表4所示。我们方法在VSPW测试集上的定性结果如图2所示。

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

CVPR 2024 视频场景解析挑战赛第一名方案详解-AI.x社区

结论

本文首先选择了一个非常适合多类语义分割任务的强基线模型。采用了一种基于不可靠伪标签的半监督视频信号分割方法。方法有效地利用未标注样本作为标注样本的补充,以提高模型性能。提出了一种集成方法,通过融合不同模型的结果来获得更准确的概率。这些技术结合在一起,创造了一个全面的解决方案,在CVPR 2024大会上获得了PVUW挑战VSS赛道的第一名。结果证明了解决方案在解决多任务语义分割问题方面的有效性和通用性。


本文转自 AI生成未来 ,作者:Biao Wu等


原文链接:​​https://mp.weixin.qq.com/s/9C4EYw_k6Tg1dpaZPmBs7g​

已于2024-6-5 10:31:47修改
收藏
回复
举报
回复
相关推荐