丁师兄大模型
LV.1
前阿里算法专家,持续输出大模型面试干货~
声望 44
关注 0
粉丝 0
私信
主帖 2
回帖
工作以后,对于做业务的同学,一个避免不了的话题就是“badcase”,在大模型时代,当然也是避免不了的问题。对于很多没接触过实际业务的同学可能认为大模型足够强,强到可以很好的fit用户的所有需求,就算fit不了,也可以微调模型来解决。但实际情况是怎样呢?其实不管是大模型,还是专有领域小模型,一定存会各式各样模型解决不了的badcase。具体原因很多,以智能客服系统为例,用户的咨询分布也符合二八原则,即用户80%的咨询...
7天前 204浏览 0点赞 0回复 0收藏
​SFT可以说是LLM的基本操作了,如果只是想把SFT跑起来是非常简单的,只需要构造inputids和labels,然后就可以把训练跑起来。然而,这样的训练效率实际上非常低。所以在训练时,通常有两个加速方法:多轮合并packing无论是哪种方法,加速后都需要保证loss和原来是等价的。本文主要介绍这两种加速方法,以及loss计算时遇到的问题。1.多轮合并假设我们有一个对话,其中user和bot交互了3轮,我们可以构建三个样本:inputids就是对...
2024-12-11 10:48:39 449浏览 0点赞 0回复 0收藏
获得成就
已积累 183 人气
获得 0 个点赞
获得 0 次收藏