用SAM做零样本视频对象分割！港科大等开源首个「稀疏点传播」方法SAM-PT，性能直追有监督SOTA-51CTO.COM

视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术，但目前的方法在零样本学习设置下，或是预测未见过的样本时，会出现性能不一致等问题。

今年4月，Meta AI开源了一个非常强大的图像分割基础模型Segment Anything Model（SAM），经过1100万张图像训练后，SAM具有非常强的泛化性能，并可以应用于各种下游应用。

不过，虽然SAM屠榜了整个图像分割领域，但它并不适用于视频分割任务。

图片

最近，来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研究人员发布了SAM-PT模型，利用稳健和稀疏的点选择（point selection）和传播（propagation）技术来生成遮罩，将SAM的零样本能力扩展到动态视频的跟踪和分割任务上，在多个视频物体分割数据集基准DAVIS, YouTube-VOS和MOSE中取得了稳定且强大的零样本性能。

论文链接：https://arxiv.org/pdf/2307.01197.pdf

代码链接：https://github.com/SysCV/sampt

与传统的、以物体为中心的掩码传播策略相比，SAM-PT创新型地使用点传播来利用与物体语义无关的局部结构信息；并通过对零样本开放世界不明视频物体（Unidentified Video Objects, UVO）基准的直接评估，突出了基于点跟踪的优势，也有助于保持SAM的灵活性。

为了进一步提升模型性能，研究人员利用K-Medoids聚类来进行点的始化，并同时追踪positive和negative的点以明确区分目标物体；还采用了多个掩码解码来完善掩码，并设计了一个点重新初始化策略来提高跟踪的准确性。

SAM-PT

背景知识SAM

视觉基础模型SAM可用于提示分割任务（ promptable segmentation），即在给定「提示」的情况下，进行零样本和少样本的图像分割任务。

SAM的训练数据为SA-1B，包含1100万张图像和超过10亿个遮罩，比现有的分割数据集大400倍，大规模数据也使得SAM对新数据有着非常强大的零样本泛化性能。

图片

SAM的实验结果展现了其从单一前景点产生高质量遮罩的能力，并在使用提示工程的零样本设置下，对各种下游任务都展现出强大的泛化能力，包括但不限于边缘检测、object proposal generation和实例分割任务。

SAM由三个主要部分组成：一个图像编码器、一个灵活的提示编码器和一个快速掩码解码器。

图像编码器是Vision Transformer（ViT）的主干部分，处理高分辨率的1024×1024图像，生成64×64空间大小的图像嵌入。

提示编码器将稀疏的提示作为输入，包括点、框和文本，或密集的提示，如遮罩等，并将这些提示翻译成具有c个维度的token

轻量级掩码解码器整合图像和提示嵌入，实时预测分割掩码，使SAM能够以最小的计算开销适应各种提示。

SAM-PT

虽然SAM在图像分割方面展现出强大的性能，但它在处理视频分割任务上却有内在的局限性。

这篇论文中提出的Segment Anything Meets Point Tracking（SAM-PT）方法有效地将SAM扩展到了视频，提供了强大的视频分割性能，并且不需要对任何视频分割数据进行训练。

图片

SAM-PT主要由四个步骤组成：为第一帧选择查询点；使用点跟踪器将选择的查询点传播到所有视频帧；使用SAM根据传播的点生成每帧的分割掩码；通过从预测的遮罩中采样查询点来重新初始化。

1. 查询点的选择

查询点（query point）可以表示目标物体（positive points）或指定背景和非目标物体（negative points），用户可以手动和交互式地提供查询点，也可以从真实标注遮罩中获得。

例如，在半监督视频物体分割任务中，标注遮罩是为物体出现的第一帧准备的。

图片

研究人员使用了不同的点取样技术，通过考虑几何位置或特征的不相似性，从真实标注遮罩中获得查询点。

抽样技术包括：

随机采样是一种直观的方法，从地面真实遮罩中随机选择查询点。

K-Medoids采样，将K-Medoids聚类的聚类中心作为查询点，以确保对物体不同部分的良好覆盖以及对噪声和异常值的稳健性。

Shi-Tomasi 采样，从遮罩下的图像中提取ShiTomasi corner point，并且已经被证明是很好的追踪特征。

混合取样，结合了上述技术的混合方法，可以结合不同技术的独特优势。

虽然每种方法在影响模型性能方面都有不同的特点，但消融研究显示，K-Medoids采样的结果是最好的，可以完整地覆盖各种物体；其次是Shi-Tomasi采样方法。

2. 点追踪（Point Tracking）

用查询点初始化后，使用稳健的点追踪器在视频的所有帧中进行点传播，从而可以得到点轨迹和occulusion分数。

研究人员采用最先进的点跟踪器PIPS对点进行传播，因为PIPS对长序列追踪等有挑战性的场景下（如object occulusion和re-sppearance）上更加稳健，实验结果也显示出比链式光流传播（chained optical flow propagation）或第一帧对应（first-frame correspondence）等方法更有效。

3. 分割

在预测的轨迹中，non-occulded点作为目标物体在整个视频中的指示器，可以用来提示SAM，并利用其固有的泛化能力来输出每帧分割掩码预测。

与需要对视频分割数据进行训练或微调的传统跟踪方法不同，该方法在零样本视频分割任务中表现出色。

图片

研究人员通过两次调用SAM来结合正样本点和负样本点：首先用正样本点提示SAM来定义物体的初始位置；然后同时用正负点以及之前的掩码预测来提示SAM，其中负样本点在物体和背景之间提供了更细微的区别，并有助于消除错误的分割区域。

最后通过重复第二次的SAM提示来执行数量不等的遮罩优化迭代，利用SAM将模糊的遮罩细化为更精确的遮罩，从消融实验中也可以看到这步可以明显提高视频物体分割的性能。

4. 点追踪重初始化

一旦prediction horizon中h=8帧，研究人员可以选择使用预测的遮罩对查询点进行重新初始化，并将该变体表示为SAM-PT-reinit；在达到8之前，使用最后一个预测遮罩对新点进行采样。

在这个阶段，所有之前的点都会被丢弃，并用新的采样点来代替。

对新的点重复步骤1-4，直到视频中的所有帧都被处理完毕；重新初始化过程的作用是通过丢弃已经变得不可靠或被遮挡的点来提高跟踪的准确性，同时纳入视频中后来变得可见的物体分割的点。

实验部分

视频对象分割

从实验结果来看，SAM方法在DAVIS 2017数据集上优于其他没有在任何视频对象上训练过的方法。

图片

J&F指标的平均得分是76.6分，比PerSAM-F高出4.7分，比SegGPT通用模型高出一个百分点，实验重复测试了8次，表中列出了平均值和标准差。

SAM-PT方法在YouTube-VOS 2018和MOSE 2023数据集上的表现也超过了PerSAM-F，取得了67.0和41.0的平均分；但在不同的遮罩训练数据下，SAM-PT这两个数据集上的表现弱于SegGPT

图片

虽然SAM-PT的零样本学习性能很有竞争力，但某些限制仍然存在，主要是由于点追踪器在处理遮挡、小物体、运动模糊和重新识别方面的限制，错误可能会传播到未来的视频帧中。

图片