公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

周末程序猿

LV.1

鹅厂程序猿，专注后台开发和人工智能领域

帖子 4

声望 42

关注 0

粉丝 0

私信

关注

主帖 4

回帖

机器学习 | 从0开发大模型-译llama3-from-scratch

最近在看一篇github上大佬的文章，从0开始训练llama3，觉得对于《从0开发大模型》有点帮助，于是翻译一下，发现其中很多内容当前系列文章的知识点相似。原文：https:github.comnaklechallama3fromscratch其中metallamaMetaLlama38B文件地址：https:huggingface.cometallamaMetaLlama38Btreemainoriginal1、Tokenizer原始代码没有实现tokenizer，而是使用llama3的tokenizer.model，实现代码如下：执行：pipinstallblobfile执行：...

2025-02-19 12:48:53 407浏览 0点赞 0回复 0收藏

机器学习 | 从0开发大模型之DeepSeek的GRPO

最近，DeepSeekR1的发布为国产大模型争光了（太强了），不过GRPO算法源自DeepSeekMath7B模型，该模型在MATH基准测试中取得了优异成绩，论文发表于2024年2月份：https:huggingface.copapers2402.03300，以下是该论文的摘要原文：Mathematicalreasoningposesasignificantchallengeforlanguagemodelsduetoitscomplexandstructurednature.Inthispaper,weintroduceDeepSeekMath7B,whichcontinuespretrainingDeepSeekCoderBasev1.57Bw...

2025-02-12 14:21:14 493浏览 0点赞 0回复 0收藏

机器学习|从0开始大模型之模型DPO训练

1、为什么需要DPORafailov等人在2023年发表了一篇论文《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》，该论文提出了一种新的训练方法，称为直接偏好优化（DPO），该论文介绍：虽然大规模无监督语言模型(LM)可以学习广泛的世界知识和一些推理技能，但由于其训练完全无监督，因此很难精确控制其行为。现有的获得这种可控性的方法是收集模型生成相对质量的人类标签，并微调无监督语言模型以符合这些偏...

2025-02-04 20:36:48 528浏览 0点赞 0回复 0收藏

机器学习|从0开始大模型之位置编码

1、什么是位置编码在语言中，一句话是由词组成的，词与词之间是有顺序的，如果顺序乱了或者重排，其实整个句子的意思就变了，所以词与词之间是有顺序的。在循环神经网络中，序列与序列之间也是有顺序的，所以循环神经网络中，序列与序列之间也是有顺序的，不需要处理这种问题。但是在Transformer中，每个词是独立的，所以需要将词的位置信息添加到模型中，让模型维护顺序关系。位置编码位置编码就是将helloworld!的token和位置...

2025-01-20 12:07:07 401浏览 0点赞 0回复 0收藏

获得成就

已积累 471 人气

获得 0 个点赞

获得 0 次收藏