CVPR2024：VIVO提出泛化性更强的SAM（附源码下载）-51CTO.COM

本文经计算机视觉研究院公众号授权转载，转载请联系出处。

论文地址：https://arxiv.org/pdf/2405.00256
代码：https://asam2024.github.io/

PART/1

今天分析的是一种名为ASAM的新方法，它通过对抗微调来增强SAM的性能。研究者受到了自然语言处理领域成功应用自然对抗样本的启发，成功将地在计算机视觉里激发了这一方法的潜力。作者使用一个鲁棒的扩散模型对SAM-1B数据集的一个子集（1%）进行了增强处理，生成了更能体现自然变化的、而非传统的不易感知的干扰对抗样本。ASAM保留了对抗样本的视觉逼真性，并确保与原始的Mask标注对齐，从而维护了分割任务的完整性。微调后的ASAM在多种图像分割任务上展现出了显著的改进，而且不需要额外的数据或改动架构。作者的广泛评估结果证明，ASAM在图像分割任务中设立了新的性能基准，推动了计算机视觉领域基础模型的进步。

PART/2 背景

基础模型的概念在自然语言处理（NLP）领域以及近期计算机视觉领域的发展中起到了关键作用。这一概念源于NLP领域，具有里程碑意义的模型如BERT、GPT系列、LLaMA和PaLM，在未曾见过的任务对于零样本泛化能力方面表现突出。这一成功促进了计算机视觉领域类似的范式转换模型的发展。比如DINOv2、CLIP、BLIP、SAM以及Stable Diffusion等视觉基础模型在多种任务上都展示了卓越的零样本能力和广泛的泛化能力。在这些模型中，专注于图像分割的Segment Anything Model（SAM）因其独特性脱颖而出。SAM在超过10亿个Mask的庞大视觉语料库上进行训练，能够分割各种场景中的多样化目标和结构，为该领域带来了革命性的变化。尽管表现印象深刻，但作为一个基础模型，SAM在某些方面尚有改进空间。

这些挑战引出了本项工作的核心动机：在不依赖额外数据、不更改基础架构且不牺牲零样本能力的条件下，如何进一步提升SAM作为基础视觉模型的泛化性？于是，研究者便能在保持广泛适用性的同时，释放SAM的潜力。虽然现有解决方案在特定场景中有效，但并未根本上解决增强SAM内在性能的挑战。

为了应对这一挑战，研究者从NLP领域获取灵感，尤其是基础模型的研究。NLP中对抗训练（AT）的独特成功案例提供了新的视角。与视觉领域的常规对抗训练通常需要在模型鲁棒性和性能之间做出权衡不同，NLP中的对抗训练不单强化了模型的鲁棒性，也增强了其泛化能力和准确性。这一差异可能是因为NLP中的对抗样本与现实世界中文本场景的相似性更高，例如常见的拼写错误。研究者推断，NLP中对抗训练的成功得益于其生成样本的“真实性”和“自然性”。这一见解引导研究者探索将NLP中成功的对抗训练策略适用于视觉基础模型像SAM这样的模型的可能性。这种方法试图创新性地利用跨领域的见解来改进计算机视觉中的特定任务。

将这一理念应用于SAM，ASAM以增强视觉基础模型为目标，致力于利用类似于在NLP中发现的“自然”的对抗样本。受到NLP中成功的优化方法的启发，研究者提出使用这些更加“自然”的对抗样本来微调SAM，从而避免了传统对抗训练通常伴随的高成本问题。生成视觉对抗样本的传统方法通常依赖于范数约束，这导致产生的干扰并不自然，并且与真实世界的噪声有着显著不同。这种区别导致了这些对抗样本与现实世界中的真实挑战性情景之间的偏差。

为了生成既自然又逼真的对抗性样本以微调SAM，研究者受到最新对抗性攻击技术ACA, NeurIPS2023[1]的启发，假设自然图像能够通过生成模型被投射到一个低维的流形上。这个通过自然图像训练而得到的流形确保了图像的逼真性和内容的丰富性。通过将图像映射到该流形，并在流形内沿对抗方向移动，研究者可以生成既自然又逼真的对抗性样本。

PART/3 新框架

作者旨在从SA-1B 数据集中生成“自然”的对抗图像，随后使用这些生成的图像及相应的SA-1B Mask 来微调SAM。注意，在微调SAM时，作者不改变SAM的结构，也不加入任何额外的标注数据。因此，作者提出的ASAM框架仅依靠其固有的数据和结构特性，实现了提高SAM泛化能力的目标。作者提出的ASAM框架主要包括两个步骤，以下将详细描述。

对抗隐变量优化。现有的生成对抗图像的方法通常遵循范数约束，导致产生的扰动并不完全自然，并且与真实世界的噪声存在域偏移。在本文中，为了生成既自然又逼真的对抗样本以调整SAM，作者假设自然图像可以通过生成模型（如Stable Diffusion）首先投射到低维流形上。随后，通过优化低维流形，作者能够搜索到合适的对抗隐变量表示，从而有效地重新投射到自然图像域。

可控对抗样本生成。上述优化过程对隐变量添加了轻微的扰动。因此，简单的重新投射可能导致生成的对抗图像与相应的SA-1B Mask 对齐不当。为了解决这个问题，在优化完成后，作者进一步设计了控制分支，它利用ControlNet来指导重新投射过程。

Projecting Image to Diffusion Latent

扩散反演通常用于将图像投影到低维潜在空间。在扩散模型的情况下，作者采用了DDIM反转技术，该技术利用来自提示P的条件嵌入，使用CLIP文本编码器。

给定一个图像 , 作者使用一个计划，其中。这种方法有效地在去噪过程的相反方向上操作（即，而不是，将图像投影到潜在空间的。每张图像的文本描述是通过 BLIPv2 生成的。

Adversarial Optimization of Latent

作者对潜在表示进行优化，以增强自然对抗图像的生成。建立的潜在空间中，空文本嵌入确保了重建图像的质量，而文本嵌入保留了图像的语义内容。因此，同时优化这两个嵌入可能不会导致最佳结果。考虑到噪声在潜在空间中显著包含了图像的细节，作者选择将优化工作集中在它上面。

Fine-tuning SAM with Adversarial Samples

与之前改变SAM结构的方法不同，作者的目标是增强SAM的整体能力，而无需进行任何结构修改。为微调选择合适的参数需要仔细考虑，包括效率以及过拟合的风险等因素。在这方面，作者特别选择对SAM的输出标记和 Mask 标记进行微调，这部分参数仅占SAM总参数的大约。

此外，为了确保在保持泛化的同时，对对抗性样本快速收敛，作者采用了在[24]工作中描述的学习率调度策略“慢启动快衰减”。此外，作者提出的ASAM表明，仅使用SA-1B数据集的样本就已经显著提高了性能。

PART/4 实验及可视化结果

按照SAM，作者在训练期间未见过的数据集和任务上评估ASAM。评估数据集可能包括新的图像分布，例如水下或以自我为中心的图像，据作者所知，这些图像在SA-1B中并未出现。作者在mIoU评估下使用了一个包含14个数据集的新编系列，这些数据集具有多样的图像分布，如上表所示。

与PGD和DAT等现有方法不同，作者的对抗样本是由一个经过优化、由SAM梯度引导的低维流形重建的。这种方法使作者能更有效地解决SAM原始训练中的不足。它提供了一个更符合SAM学习范式的精细化输入，使其能够更有效地泛化到新或具有挑战性的场景。从上图的视觉比较中可以看出，作者提出的ASAM在原始SAM表现不佳的样本上提升了性能。