鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

LG开源韩语大模型Exaone 3.0，8万亿token训练数据

发布于 2024-8-14 09:50

浏览

0收藏

LG的AI研究机构开源了首个开放权重的大模型——EXAONE 3.0。

EXAONE 3.0是一个指令微调模型有78亿参数，经过了8万亿token高质量数据进行了综合训练。支持韩语和英文两种语言，尤其是对韩语的支持非常出色。

在KMMLU、KoBEST - BoolQ、KoBEST – COPA等基准测试中，高于Llama 3.1-8B、Gemma 2-9B等知名开源模型。

开源地址：https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct

论文地址：https://arxiv.org/abs/2408.03541

LG开源韩语大模型Exaone 3.0，8万亿token训练数据-AI.x社区

EXAONE 3.0使用了目前主流的解码器仅变换器架构，与传统变换器相比，摒弃了编码器部分，专注于通过解码器生成输出序列，减少了模型的复杂性，同时提高了处理长距离依赖关系的能力。

在上下文长度方面，EXAONE 3.0支持4,096 token，使得模型能够同时处理和记忆高达4,096个连续token的信息，极大地增强了其在理解语言连贯性方面的能力，在生成文本、翻译、摘要等提供了更好的生成、解读能力。

LG开源韩语大模型Exaone 3.0，8万亿token训练数据-AI.x社区

EXAONE 3.0还使用了RoPE和GQA来提升对长序列数据的处理能力。RoPE能够有效地编码位置信息，帮助模型理解文本中单词的顺序关系，对于处理长文本序列非常重要。而GQA则有助于提高模型对不同查询的关注能力，使其能够更准确地聚焦于关键信息，从而提升模型的性能。

为了更好地处理韩语数据，研究人员使用MeCab对韩语语料进行预标记，然后从零开始训练BBPE标记器，词汇量为102400。与其他标记器相比，这种设计在英语上实现了相似的压缩比，但在韩语上的压缩比更低。

LG开源韩语大模型Exaone 3.0，8万亿token训练数据-AI.x社区

压缩比越低意味着标记器为每个单词生成的标记更少，这有助于避免过度标记化的问题。对于韩语这种具有粘着结构的语言来说，单词可以通过组合多个词素形成，减少标记数量可以更好地保留语言的结构和语义信息。

EXAONE 3.0的预训练一共包含两个阶段：第一阶段使用了6万亿token的数据，以优化在一般领域的能力表现；第二阶段，进一步接受了额外2万亿token的训练，重点放在提高语言技巧和专业知识上。

为了达到这一目标，研究团队重新平衡了数据分布，增加专家领域数据的比例，并通过创建分类器来评估数据质量，确保高价值数据的有效利用。

LG开源韩语大模型Exaone 3.0，8万亿token训练数据-AI.x社区

在优化阶段，为了增强EXAONE 3.0 模型的指令跟随能力，LG的研究人员使用了SFT（监督微调）和DPO（直接偏好优化）。

SFT阶段涉及创建高质量的指令调优数据，通过定义广泛的服务导向指令和话题，制作出能够模拟真实用户交互的多轮对话数据集。

LG开源韩语大模型Exaone 3.0，8万亿token训练数据-AI.x社区

在DPO优化阶段，模型通过人类反馈进行调整，以最大化在偏好数据集中选定和拒绝响应之间的奖励差异，这一过程包括离线DPO和在线DPO两个步骤，前者利用预构建的偏好数据进行模型训练，后者则通过动态配置与离线学习数据分布相似的提示，持续优化模型性能。

为了评估EXAONE 3.0的性能，研究人员在MT-Bench、Arena-Hard-v0.1、WildBench和AlpacaEval 2.0 LC等基准平台进行了综合测试。

LG开源韩语大模型Exaone 3.0，8万亿token训练数据-AI.x社区

结果显示，EXAONE 3.0在韩语和英语双测试中，其数学、编码、推理等能力，超过了Llama 3.1 8B、Gemma 2 9B、Phi 3 7B等知名模型。如果你想开发专门用于韩语的类ChatGPT生成式AI应用，使用Exaone 3.0是一个不错的选择。

本文转自 AIGC开放社区，作者： AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/bYnmrJMjfptlraaLmkIFEA

标签

赞

收藏

回复

举报

回复

相关推荐

2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 3265浏览 • 0回复
无限上下文处理，2万亿token碾压Llama 2

duhorse • 2447浏览 • 0回复
next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

duhorse • 2659浏览 • 0回复
大模型训练数据的收集方式，以后企业最重要的资产不是厂房而是数据

AI探索时代 • 2648浏览 • 0回复
斯坦福、Salesforce等开源1万亿tokens多模态数据集

Aceryt • 1831浏览 • 0回复
大模型的核心之一——大模型预训练之数据预处理

AI探索时代 • 3890浏览 • 0回复
英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍

Aceryt • 2559浏览 • 0回复
解读AI大模型，从了解token开始

ermulong • 2616浏览 • 0回复
谷歌提出视觉记忆方法，让大模型训练数据更灵活

Aceryt • 1671浏览 • 0回复
IBM重磅发布Granite 3.0秒杀同级别大模型|全球首个39语言多模态大模型开源，告别"英语霸权"

sbf_2000 • 1964浏览 • 0回复
基于自定义数据集的YOLOv8模型实战

51CTO内容精选 • 2825浏览 • 0回复
解读AI大模型，从了解token开始

ermulong • 1707浏览 • 0回复
Intel Smooth-SwiGLU：FP8 LLM 训练，34% 加速

amei2000go • 2203浏览 • 0回复
OCR-free感知多模态大模型技术链路及训练数据细节

大模型自然语言处理 • 2265浏览 • 0回复
优雅谈大模型：Token与分词方法

鲁班模锤1 • 2136浏览 • 0回复
大模型训练之训练数据准备，即怎么准备高质量的训练数据集？

AI探索时代 • 2739浏览 • 0回复
模型训练前置处理之——数据预处理

AI探索时代 • 1341浏览 • 0回复
媲美OpenAI-o3，刚刚开源模型DeepCoder，训练方法、数据集大公开

Aceryt • 673浏览 • 0回复
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析

大模型自然语言处理 • 285浏览 • 0回复

51CTO内容精选

LV.9

汇聚51CTO网站AIGC方向的优秀原创和译文内容

觉得TA不错？点个关注精彩不错过

261

帖子

3926

声望

9

粉丝

关注

最近发布

微软开源DeepSeek-R1魔改版：响应99%敏感提示，风险降50% 47分钟前发布
刚刚，o4-mini发布！OpenAI史上最强、最智能模型 1天前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

上一篇：谷歌发布Gemini Live：对标GPT-4o，让每一个人都有贾维斯

下一篇：英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载