英伟达开源大模型对齐框架—NeMo-Aligner

Aceryt

发布于 2024-5-15 10:38

浏览

0收藏

随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多，为了确保输出的内容安全、可靠，对齐成为开发人员的关注重点和难点。

但现在的模型参数少则几百亿多则上千亿，想通过传统的监督式微调方法来完成对齐效果往往不理想。

因此，英伟达的研究人员开源了安全对齐框架NeMo-Aligner。这是一个包括人类反馈进行强化学习（RLHF）、直接偏好优化（DPO）、SteerLM和自我对弈微调等技术合集，可帮助开发人员极大提升模型的安全性能和稳定输出。

开源地址：https://github.com/nvidia/nemo-aligner

论文地址：https://arxiv.org/abs/2405.01481v1

英伟达开源大模型对齐框架—NeMo-Aligner-AI.x社区

下面为大家介绍两个效果比较好、常用的NeMo-Aligner对齐方法。

RLHF

RLHF是NeMo-Aligner框架的核心模块之一，主要通过人类反馈来引导大模型学习，使其输出更符合人类的价值观和偏好，同时采用了近端策略算法（PPO）来优化语言模型的行为。

英伟达开源大模型对齐框架—NeMo-Aligner-AI.x社区

训练过程主要分为三个阶段：初始阶段，从预训练的基础模型开始，进行监督微调。在监督微调中，使用输入提示和期望的回复对基础模型的参数进行更新，使其尽可能地模仿期望的回复。这一阶段是为了确保基础模型能够生成符合用户指令的回复。

奖励模型训练阶段，使用一组设定好的人类偏好数据，例如，问答的特定输出格式，来训练一个奖励模型，以最大化预测奖励与人类偏好一致的可能性。通常，会在监督微调的模型之上初始化一个线性奖励模型头部，并在其上进行训练。

英伟达开源大模型对齐框架—NeMo-Aligner-AI.x社区

策略优化训练，基于训练好的奖励模型，通过PPO进行优化训练。在训练过程中，使用基于KL散度的正则化项，防止策略偏离起始点太远并利用奖励模型的盲点。

SteerLM

SteerLM主要通过引导大模型的生成流程来实现安全对齐，使用了一种“引导信号”的指导策略。可将开发者希望的输出模式注入到模型的训练中，以引导模型生成更符合预期的响应。

首先，需要准备一个包含输入提示和期望输出的数据集对。这些输入提示可以是用户提供的指令或问题，而期望输出是模型生成的响应。

英伟达开源大模型对齐框架—NeMo-Aligner-AI.x社区

根据输入提示和期望输出，生成引导信号。引导信号可以采用不同的方式生成，例如，使用规则、基于规则的策略或者其他的启发式方法，可以控制生成文本的风格、主题、情感等内容。

例如，在多轮AI对话中，可以指导模型生成符合用户期望的回答；在文本摘要任务中，可以指导模型生成更加准确和有信息量的摘要内容；在机器翻译任务中，可以使模型生成更加准确和流畅的翻译结果。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/yib6ITPC9slRY0tPgvy-yw

标签

开源

模型

相关推荐

CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)

angel • 1924浏览 • 0回复
英伟达股价暴跌！或与 Llama 3 发布有关？

开发者阿橙 • 1850浏览 • 0回复
Ctrl-X：可控文生图新框架（加州大学&英伟达）

angel • 2082浏览 • 0回复
英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

duhorse • 1468浏览 • 0回复
从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定

轻薄滴假象 • 1131浏览 • 0回复
从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定！

angel • 1750浏览 • 0回复
又来一个RAG：RankRAG，英伟达RAG新思路

大语言模型论文跟踪 • 1304浏览 • 0回复
英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍

Aceryt • 1422浏览 • 0回复
谷歌拥抱英伟达！推出云端GPU，把AI引进无服务器，开源大模型爱好者福利来了

51CTO技术栈 • 1110浏览 • 0回复
英伟达重磅开源超强大模型--Nemotron

Aceryt • 1744浏览 • 0回复
英伟达出手即王炸！重磅开源Nemotron大模型：击败GPT-4o、仅次于o1！

51CTO技术栈 • 623浏览 • 0回复
五大主流开源大模型RAG评估框架详解

玄姐聊AGI • 2589浏览 • 0回复
一夜小模型王座易主！英伟达发布超强小模型，性能、速率、缓存全面超越Llama3.2！

51CTO技术栈 • 579浏览 • 0回复
英伟达NVLM多模态大模型细节和数据集

毛毛雨_11 • 726浏览 • 0回复
“大模型+知识图谱”双轮驱动的见解、技术和评估 - 英伟达的GraphRAG

知识图谱科技 • 747浏览 • 0回复
博通连续30天暴涨，英伟达将遭平替？AMD优势不够，英伟达卡生产过剩

51CTO技术栈 • 1062浏览 • 0回复
英伟达开源世界大模型，完美模拟物理世界！

Aceryt • 887浏览 • 0回复
首个英伟达GB200集群已上线！

51CTO技术栈 • 374浏览 • 0回复
英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

毛毛雨_11 • 296浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

英伟达开源大模型对齐框架—NeMo-Aligner

目录