鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

探讨大模型预训练与微调之间的相互作用

发布于 2025-3-5 10:55

343浏览

0收藏

今天给大家带来一篇探讨大模型预训练与微调之间关系的文章，主要通过微调预训练阶段各个checkpoint，来发现预训练本身或对下游微调有哪些影响。

大模型在预训练过程中的性能如何变化？
更多步数的预训练对下游微调有何影响？
大模型微调学到了什么，又忘记了什么？

探讨大模型预训练与微调之间的相互作用-AI.x社区

Paper: https://arxiv.org/abs/2408.066631.

由于目前开源模型中，开放全量checkpoints的模型较少，并且实验成本较大，以下分析结果主要基于OLMo-1B模型（同时训练细节、预训练数据、微调数据都公开了）进行实验，微调数据详细如下表所示，

探讨大模型预训练与微调之间的相互作用-AI.x社区

大模型在预训练过程中的性能如何变化？

探讨大模型预训练与微调之间的相互作用-AI.x社区

针对大模型在预训练过程中的checkpoints，进行下游任务zero-shot或few-shot测试，如上图可以发现，大模型随着训练步数的增加，并不是所有任务数据的效果会随之提高，部分任务数据在整个预训练过程中，基本没有变化。效果提高的任务数据，也主要在训练前期提高较多，后期趋于平稳。

模型在预训练过程中，更多在学习知识，即使学习更多，可能也不会使用。

更多步数的预训练对下游微调有何影响？

探讨大模型预训练与微调之间的相互作用-AI.x社区

探讨大模型预训练与微调之间的相互作用-AI.x社区

如上图所示，可以发现，在预训练时表现较好的任务数据，在微调过程中并不会得到改善，即在预训练过程中已经获取了知识信息，微调则没有帮助。

但在预训练阶段表现不好的任务数据，微调模型的每个checkpoint都会有明显的改善，一般微调收益先增加再减少。

探讨大模型预训练与微调之间的相互作用-AI.x社区

那么，如果模型在某一任务上一定需要下游微调时，可能早停的checkpoint效果更优。

大模型微调学到了什么，又忘记了什么？

从任务格式、任务迁移和领域知识三个维度来分析微调学到了哪些内容。

任务格式：利用三种任务格式（默认格式、IO格式、Intruct格式）验证大模型在不同checkpoint上的性能。发现：在预训练早期，微调格式与预训练格式一致可以获取更好的效果，随着预训练步数增加，大模型对格式的敏感性会随之下降，可以变的更加灵活。微调阶段可以教会大模型去适应任务格式。

探讨大模型预训练与微调之间的相互作用-AI.x社区

任务迁移：很多研究已经发现模型微调会导致某些任务的改进，但另一些任务的退化。通过实验发现，在生成任务上微调，在其他生成任务和分类任务上验证基本无下降；在分类任务上微调，在其他分类任务上无下降，但在分类任务上有明显下降。

探讨大模型预训练与微调之间的相互作用-AI.x社区

探讨大模型预训练与微调之间的相互作用-AI.x社区

领域知识：模型在学习其他能力之后，是否一定会遗忘微调之前拥有的领域知识。如下图所示，对于不同任务的结论不一致，所有NLI数据在MNLI上微调后，都会得到提高；但在Paws微调后，其他释义检测数据集均有下降。意味着遗忘和学习都发生。

探讨大模型预训练与微调之间的相互作用-AI.x社区

本文转载自NLP工作站，作者：刘聪NLP

标签

赞

收藏

回复

举报

回复

相关推荐

MolGen: 化学反馈引导的预训练分子生成

mb5f8eba9bdb0af • 1369浏览 • 0回复
基于预训练模型的知识图谱嵌入编辑

mb5f8eba9bdb0af • 1417浏览 • 0回复
费米悖论与收益递减，超级人工智能与人类社会将会怎样相互作用

xuxiangda • 1374浏览 • 0回复
值得细读的八个视觉大模型生成式预训练方法

angel • 3657浏览 • 0回复
与ChatGPT的供应链数字化探讨

ceesoft • 2472浏览 • 0回复
预训练大语言模型对时间序列预测真的有用吗？去掉预训练LLM效果反而提升

海因斯DK • 2791浏览 • 0回复
LFPLM：基于预训练语言模型的通用灵活负荷预测框架

AIRoobt • 2172浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 5080浏览 • 0回复
你真的了解预训练吗？预训练与微调的区别是什么？

AI探索时代 • 4149浏览 • 0回复
大模型的核心之一——大模型预训练之数据预处理

AI探索时代 • 2724浏览 • 0回复
REGMIX: 作为语言模型预训练的回归数据配比

sbf_2000 • 1666浏览 • 0回复
OLMoE: 开源的MoE语言模型(预训练&效果)

sbf_2000 • 1197浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 4467浏览 • 0回复
关于大模型微调与训练的问题，大模型训练的难点在哪里？

AI探索时代 • 985浏览 • 0回复
为什么预训练大模型要使用无监督学习的方式？

AI探索时代 • 1124浏览 • 0回复
深入理解预训练与微调，为什么需要预训练，什么是微调？

AI探索时代 • 2372浏览 • 0回复
云计算与大模型训练的结合

AI探索时代 • 652浏览 • 0回复
FineMedLM-o1: 基于监督微调与测试时训练的医学推理增强型大语言模型

顿数AI • 1217浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 3526浏览 • 0回复

LV.3

AIGC前沿知识分享&落地经验总结

觉得TA不错？点个关注精彩不错过

38

帖子

323

声望

0

粉丝

关注

最近发布

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！ 2025-02-25 12:49:10发布
满血DeepSeek-R1免费用！附带数据蒸馏的一些想法！ 2025-02-17 07:26:05发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

被 DeepSeek 带火的蒸馏到底是啥 0回复

上一篇：来了！Kimi开源Moonlight-16B-A3B的MoE模型！！

社区精华内容

目录

大模型在预训练过程中的性能如何变化？
更多步数的预训练对下游微调有何影响？
大模型微调学到了什么，又忘记了什么？

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载