公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

丁师兄大模型

LV.1

前阿里算法专家，持续输出大模型面试干货~

帖子 5

声望 73

关注 0

粉丝 1

社区头条作者

私信

关注

主帖 5

回帖

写给大模型新人的经验，刷到少走三年弯路！

大家好，我是丁师兄。这篇文章，我将结合自己在大模型领域的经验，给大家详细聊聊新人应该如何转行大模型赛道？比如大模型都有哪些方向？各方向的能力要求和岗位匹配？新手转行大模型常踩的坑和常见的误区？以及入行大模型最顺滑的路径？如果你是正打算入行大模型的校招社招同学，请一定看完，可能会让你在入行大模型的路上，少走很多弯路。1.大模型都有哪些方向？如果你在求职网站搜索"大模型"关键词，看一下招聘JD，基本可以...

2025-02-03 13:29:25 1241浏览 0点赞 0回复 0收藏

阿里面试惊现难题：大模型服务吞吐率太小咋整？

社区头条

想象一下，就像咱们家里的水管，正常来讲水应该哗哗地流，可要是这管子太窄了，水就只能滴滴答答，让人干着急！当下咱们面临的大模型服务吞吐率太小，不就类似于这窄窄的水管吗？当面试官问你有没有办法把大模型服务吞吐这个“管子”拓宽，让数据像奔腾的江河一样顺畅流淌，你准备怎么解决？1.面试官心理分析当面试官问你这个问题的时候，其实面试官主要是想考验你如下3个方面：第一，在实际业务中，你有没有做过大模型服务性能...

2025-01-17 12:05:44 773浏览 0点赞 0回复 0收藏

新来的妹子不懂大模型中的token！已劝退...

相信你只要了解过大模型，就听过token这个词儿，大家在用ChatGPT的API时，是按token计费的。例如，你提问消耗了100token，ChatGPT根据你的输入，回答了200token，那么一共消费的token数就是300。有时候看一些偏技术的文章，一些模型后面带着8k、32k，甚至100k，这也是指模型能处理的最大token长度。既然token在大模型领域这么高频出现，我们不禁要问：什么是token？它是怎么计算的？一个token是指一个字吗？中文和英文的token...

2025-01-09 12:29:35 2971浏览 0点赞 0回复 0收藏

这个大模型Badcase修复方案，我服！

工作以后，对于做业务的同学，一个避免不了的话题就是“badcase”，在大模型时代，当然也是避免不了的问题。对于很多没接触过实际业务的同学可能认为大模型足够强，强到可以很好的fit用户的所有需求，就算fit不了，也可以微调模型来解决。但实际情况是怎样呢？其实不管是大模型，还是专有领域小模型，一定存会各式各样模型解决不了的badcase。具体原因很多，以智能客服系统为例，用户的咨询分布也符合二八原则，即用户80%的咨询...

2024-12-31 12:38:29 965浏览 0点赞 0回复 0收藏

SFT loss计算的那些坑，完美避开！！！

社区头条

SFT可以说是LLM的基本操作了，如果只是想把SFT跑起来是非常简单的，只需要构造inputids和labels，然后就可以把训练跑起来。然而，这样的训练效率实际上非常低。所以在训练时，通常有两个加速方法：多轮合并packing无论是哪种方法，加速后都需要保证loss和原来是等价的。本文主要介绍这两种加速方法，以及loss计算时遇到的问题。1.多轮合并假设我们有一个对话，其中user和bot交互了3轮，我们可以构建三个样本：inputids就是对...

2024-12-11 10:48:39 1469浏览 0点赞 0回复 0收藏

获得成就

已积累 1746 人气

获得 0 个点赞

获得 0 次收藏