鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

为什么有了大模型还需要用Embedding模型？

发布于 2024-12-27 14:05

浏览

0收藏

不知道大家有没有想过这个问题？

我这两天对这个问题还深入思考了一下，思考的初衷是来源于现在这么多的开源大模型，而且挺多是多模态场景，而Embedding模型相对单模且英文语料居多，如果能复用大模型的output layer，是不是会加速手头上的实验进展。

为什么有了大模型还需要用Embedding模型？-AI.x社区

但思考后觉得效果应该是比不上原生的Embedding模型，有空再专门测试一下看看。

可能主要有以下几点原因：

像LLM模型都是预测next token，那么针对next token的预测，模型肯定更加关注在这个token附近的信息，那么对应这个Embedding也更多是这附近的局部信息。而我们需要的Embedding表征，是输入句子的全局表征，而不是“你好吗，我吃饭了，你可以出来了吗？”这句话里，对其中“你可以出来了吗”做的局部信息特征映射。
目前比较好的Embedding模型都用到了对比学习，这种学习方式能够更精确地学习的全局Eembedding特征，如果用LLM也可以在下游接一个自监督训练器，效果也会很不错，就是成本有点高。最近有一篇paper也可供参考：《Improving Text Embeddings with Large Language Models》

为什么有了大模型还需要用Embedding模型？-AI.x社区

对比学习目标是，学习一个这样的特征提取器，在它提取的特征所构建的 embedding 空间中，同类样本的 embedding 互相靠近，而不同类样本的embedding相互远离。通常，同类样本对互称为正样本（positive sample），不同类样本对互称为负样本（negative sample）。

本文转载自沐白AI笔记，作者：杨沐白

标签

赞

收藏

回复

举报

回复

相关推荐

从AIGC到AGI，为什么我们需要更多的“技术信仰派”？

51CTO技术栈 • 2473浏览 • 0回复
什么是AI网关？你还需要一个吗？

51CTO技术栈 • 2237浏览 • 2回复
大模型应用落地：如何选择合适的 Embedding 模型？

玄姐聊AGI • 2987浏览 • 0回复
什么是超参数？大模型的超参数是做什么用的？超参数和大模型参数有什么关系？

AI探索时代 • 3971浏览 • 0回复
大模型所谓的参数是什么？大模型为什么需要训练？大模型训练到底干了什么？

AI探索时代 • 4058浏览 • 0回复
你知道什么是微调吗？大模型为什么要微调？以及大模型微调的原理是什么？

AI探索时代 • 4254浏览 • 0回复
大模型爱好者的福音，有了它个人电脑也可以运行大模型了

AI探索时代 • 2167浏览 • 0回复
什么是提示词工程(prompt engineering)？为什么需要提示词工程？

AI探索时代 • 4094浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 2903浏览 • 0回复
什么是端到端(end to end)大模型，它和传统的大模型有什么区别？其优势与劣势是什么？

AI探索时代 • 2186浏览 • 0回复
大模型技术进阶路线，有了基础应该怎么进阶？

AI探索时代 • 919浏览 • 0回复
什么是具身智能模型，它和普通大模型有什么区别？

AI探索时代 • 1483浏览 • 0回复
为什么你会觉得大模型很难学？甚至学了好久还不知道大模型到底是个什么玩意？

AI探索时代 • 804浏览 • 0回复
为什么预训练大模型要使用无监督学习的方式？

AI探索时代 • 1155浏览 • 0回复
深入理解预训练与微调，为什么需要预训练，什么是微调？

AI探索时代 • 2395浏览 • 0回复
为什么Transformer要用LayerNorm？

智驻未来 • 2829浏览 • 0回复
大模型语义分析之嵌入(Embedding)模型

AI探索时代 • 1361浏览 • 0回复
为什么大语言模型难以处理长上下文？从 Transformer 到 Mamba

Baihai_IDP • 1090浏览 • 0回复
你为什么要用GraphGAG？

熵减AI • 313浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

如何确认深度学习模型的loss已经收敛好了？ 3天前发布
NLP：生动理解TF-IDF算法 2025-02-08 14:17:31发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

DeepSeek R1 全系列模型部署指南 0回复

上一篇：深度学习的Batchsize必须是2的n次方吗？

下一篇：一文讲清楚视觉大模型！CLIP模型论文解读

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载