OpenGVLab新作:VisionModelPretrainingonInterleavedImageTextDataviaLatentCompressionLearningGithub:https:github.comOpenGVLabLCLPaper:https:arxiv.orgabs2406.07543视觉backbone的数据瓶颈CLIP是第一个连接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监督,已经不足够让下游视觉语言模型(VLM)取得足够好的性能,尤其是在OCR等细粒度、高分辨率视觉任务上。而且这类方法通常要求图像和文本数据严格...