大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？原创

AI探索时代

发布于 2024-10-8 09:57

浏览

0收藏

“ 大模型设计，训练，微调，强化是一个系统性的过程”

大模型的训练和调优是一个系统性的，复杂性的过程；为此，研究人员为大模型的训练和微调设计了详细的方案。

今天就是介绍一下大模型优化的两个方法论，SFT——监督微调和RLHF——基于人类反馈的强化学习。

大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？-AI.x社区

什么是SFT和RLHF？

下面是关于这两个概念的简单释义：

SFT中文释义为：一种通过监督学习进行模型微调的方法。
RLHF的释义为：一种利用人类反馈进行强化学习的方法，该方法通过收集人类对模型输出的反馈；然后使用这些反馈来优化模型的行为。

说白了，不论是SFT还是RLHF的目的只有一个，那就是让模型变得更好。

SFT——监督微调

监督微调的原理很简单，就类似于学生上学，不论题目做的是对是错，老是都会告诉你一个正确的结果，也就是答案。

监督微调的做法就是，在大模型训练或微调的过程中，把一部分数据打上“标签”；也就是告诉大模型这些数据是什么东西。

比如，在CV(计算机视觉)领域，图像识别的大模型在训练的时候，会告诉大模型哪些图片是人，哪些图片是猫，哪些图片是狗；而人，猫，狗就是数据的标注。

大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？-AI.x社区

数据标注的展现形式很多，比如文件/文件夹名称，数据与标注的对应关系等。

有了监督微调，大模型就知道自己在干什么，能干什么；还拿图像识别举例，监督微调之后大模型能够识别，人类，猫和狗，但它识别不出来汽车和飞机。

如果想让它识别汽车和飞机，那么就要在训练或微调的数据中加入标注的汽车和飞机的图片。

监督微调的应用领域比较广泛，目前主流的大模型基本上都是采用的监督微调的方式，具体的领域包括文本分类，情感分析等。

SFT适用于有明确任务目标和大量标注数据的任务。

RLHF——基于人类反馈的强化学习

RLHF应该算是两种东西的结合，RL(强化学习)和HF(人类反馈)；强化学习是机器学习中的一种方法，强化学习有多种方式，而基于人类反馈的方式就叫做RLHF。

大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？-AI.x社区

其实RLHF属于模仿人类行为学的一种方式，比如我们不论在工作或生活中做一件事总喜欢得到夸奖或赞美，这样我们就会想办法把事情做的更好。

从技术角度来说，RLHF需要不断收集用户反馈，比如好与坏，评分等；然后根据这些反馈训练一个奖励模型，该模型用来评价模型等输出质量。

然后使用强化学习算法，如PPO优化语言模型，使其输出能够最大化奖励模型。

而从应用的角度来说，RLHF主要应用于对话，内容生成等领域；比较典型的就是我们在使用一些第三方模型时，会弹出让我们评价的按钮，比如chatGPT。

大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？-AI.x社区

目前chatGPT的能力不断加强，除了其技术架构方面的原因之外，还有一部分是基于强化学习的方式来优化其模型。

SFT与RLHF的异同点

说起SFT和RLHF的共同点，那它们的共同点很简单，那就是通过不同的方式让模型变得更好。

还有就是两者都是基于数据驱动，或者说大模型都属于数据驱动；SFT需要标注的数据，而RLHF需要人类反馈的数据。

至于不同点，最明显的特征有两个，第一个就是两者的实现原理不同，SFT使用的是监督学习算法，而RLHF使用的是强化学习算法。小程序

其次，就是两者的应用场景不太相同；SFT适用那种有着明确任务目标的任务，比如说分类；而RLHF适用于那种需要不断升级优化的系统，比如客服系统，问答系统等。

从两者的应用角度来说，选择SFT方法的企业较多，使用RLHF的企业相对较少。

并不是说RLHF技术比SFT的差，而是目前的人工智能生态还无法大规模使用RLHF，一是因为应用场景较少，二是技术要求和成本较高。

本文转载自公众号AI探索时代作者：DFires

原文链接：https://mp.weixin.qq.com/s/1agAmx8OZZt7peq5GERMQg

标签

大模型

微调

相关推荐

MolGen: 化学反馈引导的预训练分子生成

mb5f8eba9bdb0af • 945浏览 • 0回复
基于数据正则化自博弈强化学习的人类兼容型自动驾驶

AIGC最前线 • 1480浏览 • 0回复
ICML 2024：从视觉语言基础模型反馈中进行强化学习

AIGC最前线 • 1594浏览 • 0回复
机器学习有哪些类型？监督学习、无监督学习、强化学习、深度学习等等！

parson2000 • 1459浏览 • 0回复
大模型所谓的参数是什么？大模型为什么需要训练？大模型训练到底干了什么？

AI探索时代 • 1842浏览 • 0回复
我们要的到底是什么

ermulong • 1420浏览 • 0回复
机器学习有哪些类型？监督学习、无监督学习、强化学习、深度学习等等

parson2000 • 1764浏览 • 0回复
你知道什么是微调吗？大模型为什么要微调？以及大模型微调的原理是什么？

AI探索时代 • 2359浏览 • 0回复
什么监督学习，无监督学习与深度学习？它们之间有什么区别和联系？

AI探索时代 • 2898浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 3101浏览 • 0回复
你真的了解预训练吗？预训练与微调的区别是什么？

AI探索时代 • 2304浏览 • 0回复
训练模拟人形机器人的五种强化学习技术大PK

51CTO内容精选 • 775浏览 • 0回复
什么是端到端(end to end)大模型，它和传统的大模型有什么区别？其优势与劣势是什么？

AI探索时代 • 1206浏览 • 0回复
从具身智能再谈强化学习，为什么需要强化学习，以及强化学习的应用场景

AI探索时代 • 672浏览 • 0回复
一文彻底搞懂大模型 - 基于人类反馈的强化学习（RLHF）

架构师带你玩转AI • 910浏览 • 0回复
为什么预训练大模型要使用无监督学习的方式？

AI探索时代 • 432浏览 • 0回复
深入理解预训练与微调，为什么需要预训练，什么是微调？

AI探索时代 • 1063浏览 • 0回复
大模型训练的本质是什么？以及大模型训练的核心要点

AI探索时代 • 410浏览 • 0回复
机器学习四大范式：监督学习、无监督学习、半监督学习和自监督学习

智驻未来 • 1673浏览 • 0回复

AI探索时代

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂