鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

RegMix-用回归任务解决大模型数据混合问题

发布于 2024-7-8 07:38

浏览

0收藏

写在前面

大型语言模型在预训练过程中，如何选取数据的混合比例（利用较少的Tokens来实现较小的Loss从而加速预训练过程）是一个复杂和关键的问题。手动确认数据集中各个组成的比例是不可扩展的，并且很可能不是最优选择。

今天给大家介绍一个用回归任务解决大模型数据混合问题的方法-RegMix。其核心思想是，利用不同的数据混合比例先训练多个小模型并获取其结果，在利用这些样本训练一个回归模型，再遍历所有比例利用回归模型找到最优的数据混合比例，最后用最优数据混合比例训练更大的语言模型。

Paper: https://arxiv.org/abs/2407.01492
Github: https://github.com/sail-sg/regmix

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

通过训练512个1M的小模型，拟合回归模型，找到top64的数据混合比例，训练1B模型，最优数据混合比例训练的模型的验证集loss也是最低。

方法

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

整体流程如上图所示，

生成随机数据混合比例，按照比例采用混合数据并训练小模型；
利用数据混合比例作为特征值，模型训练的目标值作为标签，拟合回归模型；
在模拟更大数据混合比例空间，利用回归模型预测最佳目标值，以获取最佳混合比例；
使用模拟出的最佳混合比例的数据训练更大的模型。

训练小模型时越多越好，但为了节约成本需要尽量减少小模型训练次数，那么在初始化数据混合比例时就需要时多样化的，并且每个数据领域需要都存在极端值，数据采用过程主要是基于Tokens（chunk-level）分布的狄利克雷分布来实现。

详见：mixture_config/synthesize_mixture.py

同时在拟合回归模型时，采用了线性回归和LightGBM两种回归模型。

结果

数据集采用Pile dataset中不涉及版权的17个数据集，如下表所示，

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

512个1M小模型在1B Tokens训练得到的回归模型，与在25B Tokens数据下训练的1B模型，排序具有97.12%的高相关性，如下表所示，

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

同时训练次数要比训练的总Token数要重要，更影响回归模型的效果，并且采用LightGBM建模要比线性回归建模要好。

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

PS：跟作者@乾神交流过，512个样本训练回归模型会不会数据量太少，乾神说他们做过1024的实验，但并回归模型效果无明显提高，并且从成本考虑，那么512最佳。

不同的数据混合比例对下游任务结果影响较大，在Lambada数据集上最好和最差的效果相差14.6%，如下表所示，

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

同时发现了一个与传统理解不一致的结果，一般我们任务维基数据质量很高，是评估大型语言模型最具代表性的数据集。但实验结果发现，网络数据集上评估的效果，更能体现模型在下游任务上的好坏，如下图所示，可以发现Pile-CC数据集作为验证时损失值与下游任务的相关性更强。

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

并且RegMix可以发现各领域数据之间是如何相互作用的，数据领域之间复杂的相互作用利用人类固有经验很难直接区分。

RegMix-用回归任务解决大模型数据混合问题-AI.x社区

本文转载自 NLP工作站，作者：刘聪NLP

标签

赞

收藏

回复

举报

回复

相关推荐

Mixtral：数据流中的生成式稀疏专家混合模型

51CTO内容精选 • 1486浏览 • 0回复
Microsoft提出FILM-7B，解决大模型lost-in-the-middle问题，达到GPT-4-Turbo水平！

PaperAgent • 2223浏览 • 0回复
大模型解决实际问题的能力，大模型的产品化过程

AI探索时代 • 1050浏览 • 0回复
思维树：利用大型语言模型深思熟虑地解决问题

AIRoobt • 2266浏览 • 0回复
简单策略解决CTR模型训练一轮过拟合问题

海因斯DK • 1972浏览 • 0回复
REGMIX: 作为语言模型预训练的回归数据配比

sbf_2000 • 1232浏览 • 0回复
如何利用RAG+Agent轻松解决企业复杂问题？

玄姐聊AGI • 1028浏览 • 0回复
详解大规模基础模型中的幻觉问题（幻觉检测、缓解、任务、数据集和评估指标）

angel • 1949浏览 • 0回复
大语言模型评估基准数据泄露问题分析报告

芝士AI吃鱼 • 1000浏览 • 0回复
【学习挑战赛】任务进阶，完成就有奖品拿

AI.x社区官方账号 • 3.0w浏览 • 2回复
大模型面经——MoE混合专家模型总结

shizhi02 • 661浏览 • 0回复
南大&阿里发布多模态大模型WINGS，解决基于LLM的多模态训练灾难遗忘问题

海因斯DK • 917浏览 • 0回复
详解大规模基础模型中的幻觉问题（幻觉检测、缓解、任务、数据集和评估指标）

angel • 1612浏览 • 0回复
混合RAG系统，提升复杂推理任务表现

毛毛雨_11 • 525浏览 • 0回复
我们能完全解决GAN中的模式崩溃问题吗？

51CTO内容精选 • 808浏览 • 0回复
怎么解决大模型知识库的检索问题，RAG检索增强之ReRank(重新排序)

AI探索时代 • 633浏览 • 0回复
ICLR 2023 | ReAct：首次结合Thought和Action提升大模型解决问题的能力

arnoldzhw • 717浏览 • 0回复
大模型检索增强生成之向量数据库的问题

AI探索时代 • 483浏览 • 0回复
LLM解决时间序列问题之语言模型+时序模型的对齐与融合建模

海因斯DK • 513浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Kimi发布最新模型k1.5，技术报告也干货满满 1h前发布
多模态大模型在表格解析任务上效果如何？亲身经历全是泪！ 8天前发布

热门推荐

寻找乐子人｜ “多语言、精准定位”上海导游智能体搭建方案 2回复

人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望 0回复

谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型 0回复

生成式人工智能：2024年全面指南 0回复

ChatGPT写作指南发布：12个案例助力高效学习 0回复

上一篇：一大堆Chinese Llama3正在袭来

下一篇：数据合成方法-让模型自己说出用了哪些指令对齐数据

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载