最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。
尽管如此,在将 LMM 应用到计算机视觉任务上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输出,这限制了它们在处理更细粒度的视觉任务,如图像分割方面的能力。
此外,图像分割领域内部的需求多样化,任务各异 —— 实例分割需为每个对象分配唯一 ID 并计算类别信赖度,指代分割(RES)则需要基于描述性语句来识别图像中的特定区域,而交互式分割的输入可能包括点、线、边界框或掩码。这些不同的输入和输出格式如何能够被 LMM 高效地统一和处理,目前仍然是一个开放性问题。
华中科技大学的研究团队针对多模态大模型(LMM)在视觉任务中的应用挑战,推出了针对性的解决方案:PSALM 模型。这一模型的设计理念是:通过一个统一的框架处理绝大多数类型的图像分割任务,从而实现分割任务的全面覆盖。
同时,得益于多模态大模型广泛的预训练,PSALM 不仅在已见分割任务上表现出色,更在诸多未曾训练过的开放场景分割任务中,展现出强大的零样本泛化能力。多模态大模型作为视觉任务统一框架的巨大潜力得到进一步挖掘。
PSALM 有如下的特点:
- 参数优化:PSALM 采用了 Swin-Base 结合 Phi-1.5(1.3B 参数)的模型组合,这比传统的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,实现了效率与性能的兼备。
- 多任务统一:得益于 PSALM 灵活的结构设计,模型能够将多种分割任务的输入形式进行统一,并支持多任务的联合训练,最终取得相互促进的效果。
- 性能优异:PSALM 不仅在全景分割、交互式分割、指代分割等多个已见分割任务上展现出比肩或超越专家模型的强大性能,还在开放词表、视频目标分割等未见开放场景任务中表现出令人瞩目的零样本泛化能力。
目前,模型和训练代码已全部开源。
- 论文标题:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
- 论文地址:https://arxiv.org/abs/2403.14598
- 代码地址:https://github.com/zamling/PSALM
- 模型地址:https://huggingface.co/EnmingZhang/PSALM
PSALM 如何实现的?
PSALM 包含图像编码器、大语言模型(LLM)和 mask 生成器,如上图所示。为了使得模型可以处理各种分割任务,模型将 LLM 的输入分为四个部分:图片特征、任务指令提示、任务条件提示以及一组可学习的 mask tokens。
任务指令提示包含当前分割任务的一个简单任务描述。例如,对于全景分割,任务指令提示可以是:「请分割出图片中所有的目标,下面是可能的类别名称」。任务条件提示指的是当前分割任务所需要的特有的信息。对于语义分割、全景分割等,所需要的即所有类别名称。模型直接简单地将类别使用逗号进行拼接,如「person, bicycle, car…」;对于指令分割,任务条件提示是当前所需分割的物体的一段描述;对于更为复杂的交互式分割,模型将点、线、框、掩码等各种提示信息转换为掩码,并通过掩码池化的操作提取所指定的区域的特征,作为交互式分割的任务条件提示。
随后,得到 mask tokens 对应位置的输出,送入 mask 生成其中,得到 mask 的特征。该特征与任务条件提示所对应的输出特征计算相似度得到置信度,与图像特征计算内积得到候选分割结果。
最终,将置信度和候选分割结果相结合,即可得到各种分割任务的结果。各种任务类型如何生成特定的条件提示和对应的条件特征可见下图。
PSALM 的效果如何?
对于指代分割 (RES) 任务,也是目前已有的基于 LMM 的分割模型所关注的任务,PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的许多基准测试集上取得了 SOTA 的性能,详见下表。
在语义分割、实例分割、全景分割等任务上,PSALM 在 COCO-val 上比较了现有的 SOTA 模型。对于采用类似规模的图像编码器的方法,PSALM 取得了极具竞争力的结果,甚至不弱于该任务上的专家模型。
对于交互式分割任务,由于当前没有开源的交互式分割数据集和测试基准。因此,在 COCO 的基础上,对其中的所有目标随机生成了各种交互提示,最终生成了 COCO-Interactive 数据集。具体结果如下表所示,PSALM 在使用点,曲线,掩码作为提示下,取得了 SOTA 的效果。在使用框作为提示下,略弱于使用数据集 SA-1B 训练的 SAM。
PSALM 对于没有见过的任务,泛化能力如何?
PSALM 在开放词表分割、通用指代分割、视频目标分割以及多视角 Ego-Exo 匹配分割任务上的零样本泛化能力同样令人印象深刻,这些结果展示了它对未知任务的适应性。
下图展示了 PSALM 在多个任务上的可视化结果包括全景分割、指令分割、交互式分割、开放词表实例分割、通用指令分割、视频目标检测和 Ego-Exo 多视角匹配分割。
总结
PSALM 代表了多模态大模型在统一图像分割领域的一次积极探索,其在参数优化、性能展示以及泛化能力方面均取得了显著成果。PSALM 的创新架构和条件提示机制,使其能够灵活处理多样化的输入输出需求,从而在各种基准任务中取得优异的成绩。