
回复
不知道大家有没有想过这个问题?
我这两天对这个问题还深入思考了一下,思考的初衷是来源于现在这么多的开源大模型,而且挺多是多模态场景,而Embedding模型相对单模且英文语料居多,如果能复用大模型的output layer,是不是会加速手头上的实验进展。
但思考后觉得效果应该是比不上原生的Embedding模型,有空再专门测试一下看看。
可能主要有以下几点原因:
对比学习目标是,学习一个这样的特征提取器,在它提取的特征所构建的 embedding 空间中,同类样本的 embedding 互相靠近,而不同类样本的embedding相互远离。通常,同类样本对互称为正样本(positive sample),不同类样本对互称为负样本(negative sample)。
本文转载自 沐白AI笔记,作者: 杨沐白