鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

LLM基础模型系列：Fine-Tuning总览原创

发布于 2024-7-10 09:17

浏览

0收藏

由于对大型语言模型，人工智能从业者经常被问到这样的问题：如何训练自己的数据？回答这个问题远非易事。生成式人工智能的最新进展是由具有许多参数的大规模模型驱动的，而训练这样的模型LLM需要昂贵的硬件（即许多具有大量内存的昂贵GPU）和花哨的训练技术（例如，完全分片的数据并行训练）。

幸运的是，这些模型通常分两个阶段进行训练——预训练和微调。其中前一个阶段（要）昂贵得多。鉴于高质量的预训练LLMs很容易在网上获得，大多数人工智能从业者可以简单地下载一个预训练的模型，并专注于使这个模型（通过微调）适应他们想要的任务。

“就所需的硬件和为不同任务托管独立实例的存储/交换成本而言，微调庞大的语言模型的成本高得令人望而却步。”

模型的大小并没有在微调过程中改变。因此微调一个LLM虽然比预训练便宜，可是也不是易事，仍然需要训练技术和硬件来处理这样的模型。每次微调运行都会创建一个完全独立的“副本”。

参数高效微调（PEFT）是微调一种比较好的技术，它不是端到端地训练完整的模型，而是固定预训练的模型权重，并且在微调期间仅调整少量特定于任务的参数。这种方法大大减少了内存开销，简化了存储/部署过程，并允许使用更易于访问的硬件进行微调LLMs。

1.微调与转移学习

LLM基础模型系列：Fine-Tuning总览-AI.x社区

首先先来明确两个概念，微调和转移学习。转移学习是将一个通用的预训练模型应用到全新的但是相关领域的过程。而微调是将通用的预训练模型进一步的训练。一般而言，微调是包含转移学习的。

LLM基础模型系列：Fine-Tuning总览-AI.x社区

上图展示了预训练，特征提取和微调的过程，预训练就是使用训练数据直接训练基础模型，比较常见的有T5，BloombergGPT，GPT-4。特征提取一般是利用基础模型进行内容的Embedding，然后在另接其他的模型进行预测，例如Bert。微调是利用训练数据训练完基础模型，然后采用微调技术（例如更新部分参数，更新所有层或者额外添加层）进行二次训练。

微调和Prompt Engineering（通过提示词优化结果，基础模型的参数是冻结的，经常在论文中会用雪花图标标识）不同，它重新精校模型参数的数值。若是全部精校所有的参数，读者需要大量的计算资源。

LLM基础模型系列：Fine-Tuning总览-AI.x社区

上图为2018年的一篇论文的插图，有三幅图片分别代表着：a为预训练，b为全量参数微调，c为分类器微调。

LLM基础模型系列：Fine-Tuning总览-AI.x社区

Instruction-tuned就是全量微调中的一种，FLAN在基础模型上面，通过指令调整（在通过指令描述的数据集集合上微调语言模型）可以显著提高未见任务的零样本性能。它采用 137B参数预训练语言模型，并在通过自然语言指令模板表达的60多个NLP数据集上对其进行指令调整。

LLM基础模型系列：Fine-Tuning总览-AI.x社区

FLAN 显著提高了其未修改版本的性能，并在评估的25个数据集中的20个数据集上超越了零样本175B GPT-3。FLAN 甚至在 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上的表现远远优于少样本 GPT-3。消融研究表明，微调数据集的数量、模型规模和自然语言指令是指令调整成功的关键。大白话而言，它将这些数据集根据不同的模版构建不同的指令训练样本，然后再次训练模型：

LLM基础模型系列：Fine-Tuning总览-AI.x社区

全量微调是美味的，但是若没有太多的计算资源，那么存在两种方法可以在有限的资源下将模型调教得较为服帖。一种是X-shot Prompt，这点在介绍Dspy的时候说过了。另外一种是高效参数微调（微调部分参数），简称PEFT（Parameter-efficient fine tuning）。本系列还是会将重点放在PEFT的技术上面。

2.PEFT概览

最后先来看看PEFT的技术分类和全景图，大致可分为四类：

LLM基础模型系列：Fine-Tuning总览-AI.x社区

Additive PEFT：通过注入新的可训练模块或参数来修改模型架构；Selective PEFT：使选择部分的参数子集在微调期间可训练，其余的冻结；
Reparameterization PEFT：将原来的参数重新结构化，比如用低轶矩阵重新表示以进行训练，然后等效地将其转换推理。
Hybrid PEFT，它结合了不同PEFT方法的优点，建立了一个统一的PEFT模型。

LLM基础模型系列：Fine-Tuning总览-AI.x社区

上图为各种算法，都是围绕着各种主流微调技术的微调方法，比如之前的文章已经介绍过的LoRA，后续将围绕这根主线开展学习之旅。

本文转载自鲁班模锤，作者：庞德公

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

图像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK • 3485浏览 • 0回复
IBM巨献：用于代码智能的Granite Code系列开放基础模型

xuxiangda • 3232浏览 • 0回复
编码大模型系列：Meta创新的“代码编译优化”的LLM

鲁班模锤1 • 1992浏览 • 0回复
LLM基础模型系列：Prompt-Tuning

探索AGI • 1783浏览 • 0回复
大模型高效微调Prompt Tuning论文解读

AIRoobt • 2732浏览 • 0回复
LLM基础模型系列：深入注意力机制

鲁班模锤1 • 1299浏览 • 0回复
大规模分布式 AI 模型训练系列—专家并行

amei2000go • 5329浏览 • 0回复
Qwen2.5系列模型开源，你值得拥有！！！

NLP工作站 • 5093浏览 • 0回复
LLM实践系列-详谈Tokenizer训练细节

NLP工作站 • 1363浏览 • 0回复
AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验

鲁班模锤1 • 2192浏览 • 0回复
多模态大模型：基础架构

鲁班模锤1 • 939浏览 • 0回复
LLM实践系列-细聊LLM的拒绝采样

NLP工作站 • 1093浏览 • 0回复
参数高效微调-Prefix Tuning、Adapter Tuning、LoRA

毛毛雨_11 • 1604浏览 • 0回复
微软研究院推出的MarS：生成基础模型时代的统一金融市场模拟引擎

Halo咯咯 • 2174浏览 • 0回复
LLM背后的基础模型6：一文入门Embeddings

鲁班模锤1 • 396浏览 • 0回复
RAG从入门到精通系列：基础RAG

PyTorch研习社 • 717浏览 • 0回复
LLM架构从基础到精通之门控循环单元（GRUs）

柏企阅文 • 551浏览 • 0回复
一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

海因斯DK • 545浏览 • 0回复
DeepSeek R1 全系列模型部署指南

芝士AI吃鱼 • 1080浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

下一个AI前沿与革命：KAN 上 4天前发布
xLSTM：拳打Transformer，脚踢Mamba？！ 2025-02-17 07:53:00发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

上一篇：优雅谈大模型：揭开计算机视觉任务神秘面纱

下一篇： FlashAttention3：“苗条”的就是比较好！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载