本文经自动驾驶之心公众号授权转载,转载请联系出处。
近年来,随着计算机视觉与自然语言处理技术的飞速发展,CLIP(Contrastive Language-Image Pre-training)模型作为一种强大的跨模态预训练模型,其应用与研究领域不断拓展。为了进一步提升CLIP模型在处理复杂任务时的效能与精度,众多研究团队致力于对传统的CLIP模型进行多维度、深层次的改进,旨在增强其特定领域的能力,比如增强CLIP在少样本分类任务上的泛化能力、细化CLIP的视觉识别区域、强化CLIP对图像内容的关注而非对图像非内容特征的关注、优化图像-文本跨模态对齐等能力。
在具体实施上,这些改进大多聚焦于CLIP的视觉编码器和文本编码器的改造。例如,通过对编码器的注意力池化层进行参数微调,可以使其更加适应特定任务的需求;引入多模态通道则可以增强模型在处理跨模态信息时的灵活性和鲁棒性;改造最终回归层则可以直接优化模型的输出性能;而改进输入数据的方式,如为模型提供伪标签或预先增强图像、文本数据,则可以从源头上提升模型的学习效率和效果。这些改造包括但不限于以下几个方面:
- 编码器改造:对CLIP的视觉和文本编码器进行结构调整或参数优化,以提高特征提取的能力。
- 注意力机制优化:通过微调注意力池层的参数或引入新的注意力模式,增强CLIP对关键视觉信息的捕捉。
- 多模态通道融合:在CLIP中引入多模态融合技术,如使用交叉注意力机制,以加强图像和文本之间的信息交流。
- 回归层调整:改造CLIP的最终回归层,以更好地适应不同任务的需求,如分类、检测或分割。
- 输入数据改进:为CLIP输入经过预处理或增强的数据,提供伪标签以指导学习,或通过数据增强提高模型的鲁棒性。
- 正则化技术:应用各种正则化技术,如Dropout、权重衰减等,以防止模型过拟合,并提高其泛化能力。
- 损失函数设计:设计新颖的损失函数,以更好地反映任务特性,促进模型在特定方向上的性能提升。
本文精心梳理了数篇前沿研究,这些研究聚焦于如何通过创新策略改进传统的CLIP模型,以显著增强其处理复杂任务的能力。从优化少样本分类的泛化性到细化视觉识别精度,再到深化图像内容与文本之间的跨模态对齐,每一篇都为我们揭示了CLIP模型潜力的新边界。接下来就让我们一起看看CLIP模型还能如何被进一步强化与拓展吧!
使用语义感知微调增强 Few-shot CLIP
https://arxiv.org/abs/2311.04464
关键词:CLIP的视觉编码器注意力池层参数微调
文章总结
文章提出了一种名为Semantic-Aware FinE-tuning (SAFE)的新方法,旨在通过微调CLIP模型的视觉编码器中的特定部分来增强其在 Few-shot场景下的表现。文章首先指出,在少样本(few-shot)微调过程中,直接采用预训练的CLIP模型可能导致灾难性遗忘和过拟合。此外,预训练的参数可能并不完全适合所有下游任务。CLIP的视觉编码器包含一个独特的注意力池层,该层对密集特征图执行空间加权求和。由于密集特征图中包含了丰富的语义信息,文章认为应该根据下游任务的具体需求来调整这些特征的权重。为了解决上述问题,文章提出了SAFE方法。这一方法在训练过程中微调注意力池层的参数,目的是让模型能够专注于对当前任务更为重要的语义特征。例如,在宠物分类任务中,模型应更多地关注耳朵和眼睛,而不是车辆分类任务中可能更关注的侧镜。在推理阶段,SAFE采用了一种残差混合技术,结合了经过微调的注意力池层和原始注意力池层的特征。这样做可以整合来自少样本的特定知识和预训练模型的先验知识。SAFE方法不仅独立有效,还可以与现有的适配器方法(如SAFE-A)兼容,进一步提升CLIP在少样本分类任务中的表现。文章通过在11个基准数据集上的广泛实验,证明了SAFE和SAFE-A方法在1-shot和4-shot设置下均显著优于现有最佳方法。
模型解析
该文章改进CLIP在少样本分类任务上的泛化能力的关键在于微调了CLIP视觉编码器中的注意力池层的参数,使其更加适用于当前任务,并且整合了微调后的和原始注意力池层。传统的CLIP模型的视觉编码器主要包含以下几类层:视觉特征提取层(包括卷积层、激活层、归一化层、残差连接)、注意力池层(这是CLIP特有的层,它使用多头注意力机制来对密集特征图进行空间加权求和,生成能够捕捉图像全局上下文信息的特征表示)、池化层(用于降低特征的空间维度,从而减少参数数量和计算量,同时使特征检测更加鲁棒)、全连接层(在卷积神经网络的末端,用于将学习到的特征映射到最终的输出,例如类别概率)。文章对注意力池层进行的参数微调是基于CLIP在池化层之前的密集特征的有意义的语义属性,从而促使模型根据特定的下游任务关注不同的语义信息。
具体来说,CLIP独特的注意力池层利用了Transformer的多头注意力机制。注意池层内部的操作如下:通过线性层Linearq将全局平均特征F映射到query q,通过线性层Lineark和Linearv将每个空间位置的密集特征F映射到key-value对。然后,注意池层通过缩放后的点积注意(dot-product attention)得到输入的密集特征的空间加权和,再输入线性层Linearc。注意池层的输出是整个图像的综合表示,可以捕获密集特征映射中的关键语义,用于视觉识别。简而言之,注意池化层对密集特征中的各种空间语义赋予不同的权重,通过加权和的方法将特征池化。
另外在推理过程中,文章将微调后的注意池层与原始注意池层进行残差混合,将预训练得到的先验知识与Few-shot知识结合起来,从而避免了在少样本任务上微调可能导致的灾难性遗忘问题。
Alpha-CLIP:关注你想重点关注的部分,看这篇就够了
https://arxiv.org/abs/2312.03818
关键词:在CLIP输入中引入新通道
文章总结
对比语言-图像预训练 (CLIP) 在从不同任务的图像中提取有价值的内容信息方面发挥着至关重要的作用。它对齐文本和视觉模式来理解整个图像,包括所有细节,甚至是那些与特定任务无关的细节。然而,为了更精细地理解和控制图像的编辑,关注特定的感兴趣区域变得至关重要,这些区域可以被人类或感知模型指示为点、蒙版或框。为了满足这些要求,我们引入了 Alpha-CLIP,这是 CLIP 的增强版本,带有辅助 Alpha 通道,用于建议关注区域,并通过构建的数百万个 RGBA 区域文本对进行微调。Alpha-CLIP不仅保留了CLIP的视觉识别能力,而且能够精确控制图像内容的重点。它在各种任务中都表现出了有效性,包括但不限于开放世界识别、多模态大型语言模型和条件 2D/3D 生成。它具有很大的潜力,可以作为图像相关任务的多功能工具。
模型解析
文章介绍了一个名为Alpha-CLIP的模型,它是Contrastive Language-Image Pre-training (CLIP)的一个增强版本,主要改进在于增加了一个辅助的Alpha通道,用于指示模型应该关注图像中的特定区域。以下是对Alpha-CLIP模型架构的总结:
- Alpha通道引入:Alpha-CLIP在传统的RGB图像通道基础上增加了一个Alpha通道,该通道作为一个蒙版(mask),可以用来指定图像中的感兴趣区域(Region of Interest, RoI)。Alpha通道的值范围从0(完全透明,表示背景)到1(完全不透明,表示前景)。
- 数据生成管道:为了训练Alpha-CLIP,研究者设计了一个数据生成管道,利用现有的图像和标注数据,结合Segment Anything Model (SAM) 和多模态大型模型(如BLIP-2)生成了数百万个RGBA区域文本对。Alpha-CLIP通过这些RGBA区域文本对进行微调。在微调过程中,保持CLIP文本编码器固定,只训练图像编码器,特别是新引入的Alpha卷积层,以及随后的Transformer块。
- Alpha-CLIP的图像编码器在结构上进行了细微的修改,以接受额外的Alpha通道输入。在Vision Transformer (ViT) 结构中,Alpha通道通过一个与RGB卷积层平行的Alpha卷积层进行处理。在训练Alpha-CLIP时,采用了特定的数据采样策略,以偶尔用原始图像-文本对替换生成的RGBA-文本对,并设置Alpha通道为全1,以保持对全图的识别能力。
总结来说,Alpha-CLIP通过对CLIP模型的扩展,引入了Alpha通道来指定图像中的关注区域,并通过大量RGBA区域文本对的微调,实现了对图像特定内容的精确控制和强调,同时保持了CLIP的原有视觉识别能力。
CLIP-VG:基于Self-paced课程学习,使CLIP实现视觉定位
https://arxiv.org/abs/2305.08685
关键词:改造CLIP最终回归层来实现视觉定位,self-paced式端到端优化
文章总结
视觉定位 (VG, Visual Grounding) 是视觉和语言领域的一个关键主题,它将由文字表达描述的特定区域定位在图像中。为了减少对手动标记数据的依赖,已经开发了无监督视觉定位技术,以使用伪标签来定位区域。然而,现有无监督方法的性能高度依赖于伪标签的质量,这些方法总是遇到多样性有限的问题。为了利用视觉和语言预训练模型来解决视觉定位问题,并合理利用伪标签,我们提出了CLIP-VG,这是一种新方法,可以对带有伪语言标签的CLIP进行self-paced课程学习。我们提出了一种简单而高效的端到端网络架构,以实现CLIP到视觉定位的迁移学习。基于CLIP架构,进一步提出单源和多源self-paced课程算法,该算法可以逐步找到更可靠的伪标签来学习最优模型,从而实现伪语言标签的可靠性和多样性之间的平衡。在单源和多源场景下,该方法在RefCOCO/+/g数据集上的表现明显优于目前最先进的无监督方法,改进幅度为6.78%至 10.67%和 11.39%至 14.87%分别。其结果甚至优于现有的弱监督视觉定位方法。此外,我们的方法在完全监督的环境中也具有竞争力。
模型解析
- CLIP-VG采用了一个简单而高效的纯Transformer编码器架构,该架构只需要调整少量参数,以最小的训练资源实现CLIP模型向视觉定位任务的迁移。为了防止灾难性遗忘,并保持CLIP的泛化能力,CLIP的编码器参数在训练过程中被冻结,只有与Transformer相关的少量参数被更新和优化。最后使用回归多层感知器(MLP)作为最终的回归层,用于预测文本描述所指的视觉区域的边界框(bounding box)。
- 单源伪标签是通过利用空间关系先验知识和由检测器提供的物体标签(包括类别和属性信息)合成的。多源伪标签是利用了基于场景图生成的方法来生成伪关系标签,或使用基于图像描述的方法来生成伪字幕标签。在多源情况下,模型首先独立地为每个伪标签源学习一个初步的特定源视觉定位模型,然后根据每步的平均实体数量选择伪标签源,逐步从简单到复杂。在MSA中,提出了源特定可靠性(Source-specific Reliability, SR)和跨源可靠性(Cross-source Reliability, CR)的概念,以利用来自不同源的伪标签进行学习。
- 提出了单源(Single-source Self-paced Adapting, SSA)和多源(Multi-source Self-paced Adapting, MSA)self-paced课程学习算法。这些算法逐步找到更可靠的伪标签,以提高定位性能。模型包括一个评估实例级质量的方案,通过学习一个初步的视觉定位模型作为可靠性测量器,使用特定的标签源来计算样本的可靠性,并构建可靠性直方图(Reliability Histogram, RH)。基于修改的二进制搜索,设计了一个贪婪样本选择策略,以实现可靠性和多样性之间的最佳平衡。
总的来说,CLIP-VG模型通过self-paced课程学习的方式,有效地利用伪语言标签来提升视觉定位任务的性能,同时保持了模型的高效性和泛化能力。
RWKV-CLIP:强大的视觉语言表征学习
https://arxiv.org/abs/2406.06973
关键词:优化CLIP视觉、文本编码器
文章总结
对比语言-图像预训练 (CLIP) 通过使用从网站获得的图像-文本对扩展数据集,显着提高了各种视觉-语言任务的性能。本文从数据和模型架构的角度进一步探讨了CLIP。为了解决杂噪声数据的普遍存在问题并提高从互联网抓取的大规模图像文本数据的质量,我们引入了一个多样化的描述生成框架,该框架可以利用大型语言模型 (LLM) 从基于 Web 的文本、合成标题和检测标签中合成和提炼内容。此外,我们提出了RWKV-CLIP,这是第一个由RWKV驱动的视觉语言表征学习模型,它将transformer的有效并行训练与RNN的高效推理相结合。在各种模型尺度和预训练数据集上的综合实验表明,RWKV-CLIP是一个强大而高效的视觉语言表征学习,它在几个下游任务中实现了最先进的性能,包括线性探针、 零样本分类和零样本图像-文本检索。
模型解析
RWKV-CLIP由多个空间混合(Spatial Mixing)和通道混合(Channel Mixing)模块堆叠而成,通过这些模块实现对输入图像和文本的深入处理,从而优化视觉、文本特征的融合。
- 优化特征融合:在空间混合阶段,模型利用注意力机制进行全局的线性复杂度计算,强化特征在通道层级的交互。输入数据通过四个并行线性层进行处理,以获得多头部的向量。利用双向偏移量增强特征在通道层级的交互,例如使用Q-Lerp和B-Lerp进行图像和文本的线性插值。在空间混合之后,模型通过通道混合模块进一步细化特征表示。
- 模型采用了RWKV单元,这是一种新型的RNN单元,旨在解决Transformer中的内存瓶颈和二次方计算复杂度问题。RWKV单元通过高效的线性扩展保持了并行训练和鲁棒可扩展性。
为了提高大规模网络图像-文本数据的质量,引入多样化描述生成框架,利用大型语言模型(LLMs)合成和优化来自网络文本、合成字幕和检测标签的内容。RWKV-CLIP通过改进的编码器架构,实现了图像和文本之间的更优跨模态对齐。模型通过优化数据和模型架构,增强了对噪声数据的鲁棒性,尤其是在处理大规模网络数据时。
CLAP:如何将内容与风格隔离开?增强提示对比学习来帮你
https://arxiv.org/abs/2311.16445
关键词:改进CLIP编码器
文章总结
对比视觉语言模型(如CLIP)因其学习特征出色的泛化能力,在多种下游任务中获得了广泛关注。然而,这些模型学习的特征往往融合了内容和风格信息,这在一定程度上限制了其在分布变化下的泛化能力。为了克服这一局限性,文章采用因果生成视角来处理多模态数据,并提出结合数据增强的对比学习方法,以从原始表示中分离出内容特征。为实现这一目标,文章首先探索了图像增强技术,并开发了一种方法将其无缝集成到预训练的CLIP类模型中,以提取纯粹的内容特征。更进一步地,作者认识到文本数据固有的语义丰富性和逻辑结构,探索了文本增强的使用,以从风格特征中分离出潜在内容。这使得CLIP类模型的编码器能够专注于潜在的内容信息,并通过预训练的CLIP类模型优化学习到的表示。通过在多个数据集上进行了广泛的实验,结果表明,在零样本和少样本分类任务上取得了显著改进,同时对各种扰动的鲁棒性也得到了增强。这些结果凸显了文章所提方法在优化视觉语言表示和推动多模态学习领域最新进展方面的有效性。
模型解析
文章提出了一种名为CLAP(Contrastive Learning with Augmented Prompts)的新方法,旨在通过对比学习和数据增强来分离视觉-语言模型中的内容和风格特征。
- 文章采用了因果生成模型来理解多模态数据(图像和文本)。在这个模型中,图像和文本数据被认为是通过不同的生成过程由共享的潜在空间中的潜在变量产生的。这个空间被分为两部分:一部分对应于内容变量 c ,另一部分对应于风格变量 s 。内容变量 c 被假设为决定样本标签 y 的因素。
- 为了分离内容和风格信息,文章探索了图像增强技术。通过在潜在风格变量上应用软干预(soft interventions),可以生成增强的图像,其中内容信息保持不变而风格信息发生变化。作者开发了一种方法将图像增强技术集成到预训练的CLIP模型中。这是通过设计一个解耦网络(disentangled network)来实现的,该网络使用对比损失(contrastive loss)和图像增强来微调预训练的CLIP模型,从而提取内容特征。
- 鉴于文本数据的语义丰富性和逻辑结构,文章进一步探索了文本增强。通过文本增强,可以在不改变内容的情况下改变风格因素,这有助于分离出潜在的内容。例如,将文本从“a photo of a dog”变换为“a sketch of a dog”在语言模态中是直接的,而在图像数据中实现类似的变换则具有挑战性。接着,文章提出了对比学习与增强提示CLAP方法,它使用预训练的文本编码器和文本增强来训练解耦网络。然后,将训练好的解耦网络转移到CLIP模型的图像编码器上,以提取内容表示。
总结来说,CLAP通过结合因果生成模型、图像和文本增强技术,以及对比学习,有效地从CLIP类模型中分离并提取了内容特征,从而提高了模型在多模态学习中的性能和鲁棒性。
关注你的近邻:免训练的开放词汇语义分割
https://arxiv.org/abs/2404.08181
关键词:通过在CLIP的视觉Transformer的自注意力中强制执行补丁定位实现密集预测
文章总结
尽管深度学习在密集视觉识别问题(如语义分割)上取得了显著进展,但传统方法仍受到固定类别集的限制。与此同时,诸如CLIP(对比语言-图像预训练)之类的视觉-语言基础模型在众多零样本图像级任务中展示了非凡的有效性,这得益于其强大的泛化能力。最近,一些研究工作探讨了将这些模型应用于开放词汇集语义分割(Open-Vocabulary Semantic Segmentation, OVSS)。然而,现有方法往往依赖于不切实际的监督式预训练或需要访问额外的预训练网络。本研究为无需训练的OVSS提出了一种强大的基线方法,称为邻域感知CLIP(Neighbour-Aware CLIP, NACLIP),这是一种针对此情景量身定制的CLIP简单适配方法。本文的方法在CLIP的视觉Transformer的自注意力中强制执行补丁定位,尽管这对于密集预测任务至关重要,但在OVSS文献中却被忽视了。通过融入有利于分割的设计选择,我们的方法在不需要额外数据、辅助预训练网络或广泛超参数调优的情况下,显著提高了性能,使其在现实世界应用中具有高度的实用性。我们在8个流行的语义分割基准上进行了实验,并在大多数情况下取得了最先进的性能。
模型解析
- 传统CLIP模型在自注意力模块中学习到的是空间不变性的特征,这对于图像级别的任务(如分类)是有益的,但对于密集预测任务(如语义分割)则不够。NACLIP通过引入空间一致性,改进了自注意力机制,使得模型能够更好地捕捉局部空间信息。
- NACLIP强制执行补丁(patch)在CLIP自注意力中的定位,这是通过修改自注意力模块来实现的,具体如下:(1)引入空间一致性:通过将高斯核(Gaussian kernel)添加到自注意力模块的注意力图中,增强了对每个补丁邻域的关注。(2)修改相似性度量:NACLIP使用基于键(key)向量的点积来计算相似度,而不是传统的基于查询(query)和键(key)的点积。
- 在NACLIP中,移除了CLIP模型中的[CLS]标记,因为在密集预测任务中,该标记对于提取有用的分割信息并不成功。此外,NACLIP简化了CLIP的视觉Transformer的最终编码器块,移除了最终编码器块的前馈网络(feed-forward network),因为其参数是为图像级别任务而非密集预测任务训练的。
通过这些改进,NACLIP能够更好地适应OVSS任务,特别是在没有额外训练数据或预训练网络的情况下,提高了模型对新类别的泛化能力。