清华大学孙茂松教授提出全新微调框架CPT准确率提升17.3%-51CTO.COM

预训练模型在计算机视觉和语言上都取得了显著成果，但这些语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架CPT，用颜色来遮蔽、融合图像和语言，准确率提升17.3%，标准差降低73.8%！

预先训练的视觉语言模型（Pre-Trained Vision-Language Models, VL-PTM）能够同时处理语言和视觉上的信息，也是完成各种多模态任务的基础模型。

但模型的预训练和微调之间存在着巨大的差距，在预训练期间，大多数VL PTM都是基于mask language modeling目标进行优化的，主要任务就是在屏蔽的词中从跨模态上下文中恢复。

然而，在微调过程中，下游任务通常是通过将未屏蔽token的表示分类到语义标签来完成的，在语义标签中通常会引入特定任务的参数。这种差别阻碍了VL PTM对下游任务的适应性，因此需要大量的标记数据来优化VL-PTM对下游任务的视觉基础能力。

针对这个问题，清华大学的研究人员提出了一个新模型跨模态提示调节（Cross-Modal Prompt Tuning, CPT），也可以称为Colorful Prompt Tuning。CPT是一种调整VL-PTM参数的新范式，关键点在于通过在图像和文本中添加基于颜色的共同参照标记，视觉基础可以重新形成填补空白的问题，最大限度地减少预训练和微调之间的差距。

为了在图像数据中使用自然语言表达式，CPT由两个组件组成：（1）一个视觉子提示（visual sub-prompt），用颜色块唯一地标记图像区域；（2）一个文本子提示（textual sub-prompt），将查询文本放入基于颜色的查询模板中。然后，通过从查询模板中的屏蔽标记恢复相应的彩色文本，可以实现目标图像区域的显式定位。

论文的作者是孙茂松教授，目前任清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、教育部在线教育研究中心副主任、清华大学大规模在线开放教育研究中心主任。曾任清华大学计算机系主任、党委书记。研究方向为自然语言理解、中文信息处理、Web智能、社会计算和计算教育学等。

配备CPT后，VL-PTMs可以在没有任何标记数据的情况下执行zero-shot visual grouding，因为VL PTMs在训练前已经很好地学习了颜色的跨模态表示及其与其他概念（例如，对象、属性和关系）的组合。

当有几个或全部标记的实例可用时，CPT可以根据基于熵的目标函数对VL PTM进行进一步调整。

虽然通过基于颜色的提示将图像和文本连接起来看着很好用，但研究人员仍然发现了其中两个关键问题：（1）如何确定颜色集C的配置；（2）如何使用有限的预训练颜色处理图像区域的数量。

解决方法有跨模式提示搜索（Cross-modal Prompt Search）。以前在文本提示调优方面的工作表明，提示配置（例如，文本模板）对性能有重大影响。这篇文章也是对搜索跨模态提示配置（即颜色集C）进行的首次研究。

直观地说，C应该由VL PTM最敏感的颜色组成。为了获得颜色，一种简单的方法是采用预训练文本中最常见的颜色文本，其标准RGB作为civ。但该解决方案是次优的，因为这种方法在确定彩色文本时不考虑其视觉外观，并且真实图像中颜色的视觉外观通常与其标准RGB不同。

所以在跨模式提示搜索中，首先确定一个全彩色文本的候选集。对于RGB空间中的每个可能颜色，将纯色块与文本子提示连接到VL PTMs中：[CLS] a photo in [MASK] color. [SEP]。然后为每个候选颜色文本获得记录分数。

记录得分越大，表明cv和cw之间的相关性越高，并且删除了在任何颜色视觉外观中都没有排名靠前的颜色文本。最后对于每个剩余的彩色文本，其视觉外观由最大色彩确定，并且实验结果显示得到的颜色配置明显优于原始的颜色配置。

图像区域批处理（Image Region Batching）。在视觉基础中，图像中区域建议的数量通常超过颜色集合C的大小(∼ 10)。此外，严重重叠的色块会阻碍视觉基础，因此需要将图像区域分为多个批次，每个批次包含少量中度重叠的图像区域，并分别使用视觉子提示标记每个批次。为了处理不包含目标区域的批，在解码词汇表中进一步引入了一个新的候选文本none，表示批中没有目标区域。

实验结果表明，提示微调后的 VL-PTM的性能大大优于微调后的PTM，

1、CPT在zero-shot 和few-shot 设置下比随机基线和强微调基线有很大的优势（例如，在RefCOCO评估中，one-shot 的绝对准确度平均提高17.3%）。不同的数据集和不同的训练次数之间的改进是一致的。这表明CPT可以有效地提高VL PTM调谐的数据效率，并刺激VL PTM的视觉接地能力。

2、值得注意的是，与微调相比，CPT实现的标准偏差要小得多（例如，在RefCOCO评估中，一次试验平均降低73.8%的相对标准偏差）。这表明，来自预训练的连贯的调节方法可以导致更稳定的few-shot 训练，这也是评估少镜头学习模型的关键因素。

3、可以注意到，在RefCOCO+评估中，CPT的微调性能稍逊于16 shots。原因是Ref-COCO+有更多基于颜色的表达（例如，穿着红衬衫和蓝帽子的人），这可能会干扰基于颜色的CPT。然而，在完全监督的场景中，通过更多的调优实例可以缓解这个问题，模型可以学习更好地区分查询文本和提示模板中的颜色。

4、在完全监督的设置下，CPT实现了与强微调VL PTM相当的性能。结果表明，即使在完全监督的情况下，CPT也是VL-PTM的一种竞争性调优方法。总之，与普通的微调方法相比，CPT在zero-shot、few-shot和完全监督的视觉方面实现了优越/可比且更稳定的性能。