超越CLIP,视觉大模型训练新范式? 原创
OpenGVLab新作:Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning
Github: https://github.com/OpenGVLab/LCL
Paper: https://arxiv.org/abs/2406.07543
视觉backbone的数据瓶颈
CLIP是第一个连接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监督,已经不足够让下游视觉-语言模型(VLM)取得足够好的性能,尤其是在OCR等细粒度、高分辨率视觉任务上。而且这类方法通常要求图像和文本数据严格配对,这在实际应用中可能不现实(难以获得大量高质量内容严格匹配的图文对,而且图文对表达的信息通常难以足够细粒度),已经成为了视觉多模态大模型Scaling Law的数据瓶颈。
交织图像-文本数据是一种更具灵活性和实用性的资源。此类数据通常从社交媒体、新闻网站等获取,图像和文本之间的关系更为复杂,不总是严格配对。这对预训练提出了新的挑战,但也提供了新的机会。
Latent Compression Learning (LCL)
本文提出了一种新的预训练方法,旨在解决交织图像-文本数据预训练中的挑战。该方法名为隐压缩学习(Latent Compression Learning, LCL)。与传统的对比学习不同,LCL方法通过最大化因果注意力模型的输入和输出之间的互信息,实现了更加高效的视觉表示学习。
LCL方法的核心思想是通过对比学习和生成任务的结合,充分利用图像和文本之间的潜在联系。具体来说,该方法包括两个主要任务:
- 对比学习任务:通过对比视觉表征和前文上下文,提升视觉模型的理解能力。
- 生成任务:利用视觉表示生成后续文本,增强模型的生成能力。
这种方法不仅适用于严格配对的图像-文本数据,也能有效处理交织数据,使得视觉模型的预训练更加灵活和高效。
利用两个互补损失来从头开始学习交错图像文本数据上的鲁棒视觉表示:对比损失确保了视觉潜在表示与其先前上下文之间的一致性,而自回归损失增强了后续文本视觉表示的可预测性
实验结果表明,LCL方法在不同类型的数据集上表现优异。特别是在配对预训练数据集(如LAION)和交织预训练数据(如MMC4)上,LCL均表现出了强大的学习能力。与CLIP相比,LCL在交织数据上的表现尤为突出,显示出其在处理复杂数据关系方面的优势。
这个工作首次探索了使用交错图像文本数据,进行视觉模型预训练。这篇文章从理论上证明了latent compression等价于最大化因果模型的输入和输出之间的相互信息,并将该目标进一步分解为两个基本的训练任务(对比学习+生成任务),最终得到了更鲁棒的视觉表征。在用作多模态大模型的视觉backbone时,这种方法能更加充分利用互联网数据,更能scaling数据集规模,可能有更多应用前景。
本文转载自公众号思源数据科学 作者:思源Source
原文链接:https://mp.weixin.qq.com/s/yaPUtZMKjFyQ7zO39q1jFQ