鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习

发布于 2024-10-24 15:21

3393浏览

0收藏

今天给大家介绍一篇港中文、上海AI Lab等机构联合发表的CLIP优化工作，构建了基于多专家网络的MoE模型，实现更细粒度的视觉表征器训练，提升下游多模态大模型

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习-AI.x社区

论文标题：CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING

下载地址：https://arxiv.org/pdf/2409.19291v2

1.背景

基于CLIP的图文对比学习预训练是构建多模态大模型的一个核心基础模块。通过图片和文本的对比学习过程，训练图片和文本的Encoder，能够对齐图片和文本这两个模态的表征。

然而，很多工作都发现，CLIP训练的Encoder，提取的更多是粗粒度的图像信息，例如CLIP的表征会存在语义不同、内容相似的图像被分到同一个类别中。这种比较弱的视觉Encoder会影响下游任务的效果。

为了解决上述问题，本文构建了一种基于多专家网络的CLIP模型，不同专家从不同维度提取视觉表征，提升视觉编码器能力。并且整个过程只需要基于已有的checkpoint进行finetune，不用从0训练CLIP模型。

2.建模方法

CLIP-MoE的核心建模方法可以分成3个部分：多阶段对比学习、多专家网络、训练方式。

多阶段对比学习是港中文在Avoiding feature suppression in contrastive learning: Learning what has not been learned before中提出的CLIP训练方法。进行多轮的CLIP训练，每轮训练后，根据表征进行聚类，下一轮的对比学习在每个聚类类簇内进行训练。通过多轮训练，得到一系列的CLIP模型。这种建模方法可以理解为，比如最开始对比学习学到了根据颜色进行表征对齐，在聚类后，颜色相同的聚类到了一起，第二阶段就可以学到颜色以外的其他信息进行表征区分。通过这种方式实现不同维度的表征学习。

本文也利用多阶段对比学习的思路，基于一个预训练的CLIP模型，将参数固定，只对Transformer中的FFN层进行finetune。通过多阶段对比学习，生成多组FFN参数。

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习-AI.x社区

基于上述不同阶段的FFN参数，可以构建多专家网络。通过门控网络，设定样本通过各个FFN的概率，各个FFN的输出结果进行加权求和。并且在损失函数中引入复杂均衡loss，防止MoE被少数专家主导的情况。

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习-AI.x社区

在训练方式上，包含2个阶段。第一阶段，在多阶段对比学习过程中，基于预训练CLIP，模型参数freeze，只对FFN层进行finetune。在第二阶段，冻结所有参数，只对多专家网络中的路由部分进行finetune。

3.实验结果

通过实验结果来看，本文的CLIP预训练方法在零样本学习场景的图文检索、图像分类等任务上取得了显著的效果提升。

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习-AI.x社区

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习-AI.x社区

文中也通过case分析了这种CLIP-MoE结构对于细粒度图文匹配的有效性。CLIP-MoE能够更加关注图像中的细节信息，做出和文本更准确的匹配。

多阶段对比学习+多专家CLIP实现细粒度多模态表征学习-AI.x社区

本文转载自圆圆的算法笔记，作者： Fareise

标签

赞

收藏

回复

举报

回复

相关推荐

CVPR 2024 | 通过细粒度人类反馈对齐数据，提高多模态大模型可信度

zhangyannni • 3244浏览 • 0回复
今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力细粒度评价基准FineMath

pangguiyu • 3640浏览 • 0回复
【春“码”盎然学习季】春日生发，宜学习，宜进阶，宜赢取春日好礼！

AI.x社区官方账号 • 52.2w浏览 • 52回复
【乘风进阶学习季】夏日初长，乘风而上，码出未来！

AI.x社区官方账号 • 52.9w浏览 • 36回复
【LLM】 CuMo: 使用协同再利用的混合专家模型来扩展多模态大型语言模型

sbf_2000 • 3132浏览 • 0回复
谷歌创新框架：从非结构化数据，实现多模态学习

Aceryt • 2072浏览 • 0回复
谷歌通过数据增强、对比调优，减少多模态模型幻觉

Aceryt • 2316浏览 • 0回复
UltraEdit：基于指令的细粒度图像编辑数据集

angel • 2529浏览 • 0回复
统一多模态大模型！PUMA:多粒度策略笑傲生成、编辑、修复、着色、条件生成和理解!

angel • 2744浏览 • 0回复
LLaVA-o1：多阶段自主推理（北大&清华&阿里等）

angel • 2102浏览 • 0回复
Jina CLIP v2：为多模态RAG设计的向量模型

kede96 • 2648浏览 • 0回复
适用于多图的多模态大模型：粗粒度离散表征+细粒度连续表征提升图像编码准确性

海因斯DK • 2545浏览 • 0回复
多模态视觉层：CLIP、SigLIP谁更胜一筹

CourseAI • 6628浏览 • 0回复
字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

angel • 1541浏览 • 0回复
基于多模态深度强化学习的投资组合优化

灵度智能 • 2188浏览 • 0回复
用强化学习重塑多模态AI：解读Kimi k1.5的突破与创新

Halo咯咯 • 1977浏览 • 0回复
小红书 NoteLLM-2：用于推荐的多模态表征

amei2000go • 1537浏览 • 0回复
DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！

南夏的算法驿站 • 1922浏览 • 0回复
MM-Eureka：大规模强化学习触发多模态模型能力涌现

angel • 1208浏览 • 0回复

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

67

帖子

621

声望

4

粉丝

关注

最近发布

大模型系列：一文汇总16个深度语言模型代表工作 2025-04-08 01:03:28发布
时序Pattern提取+语义对齐增强基于LLM的时序预测效果 2025-03-26 00:52:59发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： FoundTS：时间序列预测基础模型的全面统一测评基准

下一篇：一文汇总：推荐系统中多任务学习的优化思路

社区精华内容

目录

1.背景
2.建模方法
3.实验结果

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载