51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
24年11月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
wx671aff8936b5b
LV.1
这个用户很懒,还没有个人简介
帖子 0
声望 3
关注 0
粉丝 0
私信
关注
主帖
回帖 1
1
FP8 预训练真的成熟了吗:一些实践和分析
2.2.1FP8训练实验的实验是错的,《ToFP8andBackAgain》的作者没有让最后一层线性层保持高精度。低比特训练需要让最后一层线性层保持高精度,其他线性层用低精度。MSAMP训练的FP8GPT2124M能够和BF16模型对齐:https:github.comAzureMSAMPissues178基于nanoGPT整合MSAMP的代码已开源:https:github.comwkcnnanoGPT
2024-10-25 10:19:46
0点赞
0回复
1
获得成就
已积累
6
人气
获得
0
个点赞
获得
0
次收藏
客服