一大堆Chinese Llama3正在袭来

NLP工作站

发布于 2024-7-4 09:02

浏览

0收藏

写在前面

大家好，我是刘聪NLP。

Llama3模型已经开源，可以就在这短短的两天之内，就出现了很多Chinese-Llama3 repo，开源社区也是相当的卷。

再看到Llama3相关报告的时候，就预料到会有很多Chinese-Llama3，因为Llama3对中文十分不友好，15T Tokens的训练数据，仅有5%（750B Tokens）是其他语言，那么中文就更少了。

一大堆Chinese Llama3正在袭来-AI.x社区

当时还抖激灵，说先开个repo占个坑（其实是想做但没卡）

很多网友们测试，也发现Llama3能力很强，可以理解中文问题的意思，但输出内容就会是英文，在提示词中强调用中文的情况下，会使用中文回答，但不稳定，有时会出现中英文结合的情况。

一大堆Chinese Llama3正在袭来-AI.x社区

中文问题

一大堆Chinese Llama3正在袭来-AI.x社区

强调中文回答

一大堆Chinese Llama3正在袭来-AI.x社区

强调中文回答-但输出英文

一大堆Chinese Llama3正在袭来-AI.x社区

强调中文回答-但输出英文

可想而知，开源社区会对Llama3进行中文增强（毕竟llama3基座很强），当然还是那几步：扩充中文词表、中文数据continue-pretrain、中文sft。

当然就像Llama2出来的时候一样，会带来很多机遇，借助Llama3的名头，还是可以肝出不少内容的。

下面先简单对Llama3进行介绍，再给大家分享一些已经开源的Chinese-Llama3项目。

Llama3

Llama3模型目前共开源了8B和70B两个参数规模的模型，400B参数规模的模型还在训练中。MetaAI也表示接下来的几个月里，将发布多个具有新功能的模型，包括多模态、多语言对话能力、更长的上下文窗口以及更强的综合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

结构与Llama2基本一致，词表大小扩充到128K，8B和70B大小的模型中都采用了分组查询注意力（GQA），最大长度8K。
15T Tokens进行模型预训练，整体是Llama2的7倍，代码数据是Llama2的4倍，其中5%的数据由其他30种语言组成。
训练优化（数据并行、模型并行和流水线并行）实现同时在16K个GPU上训练，每个GPU的计算利用率超过400 TFLOPS。最终在24K个GPU上训练，相比于Llama2训练效率提高了约三倍。

一大堆Chinese Llama3正在袭来-AI.x社区

llmsys对战

暂时投票还有点少，但匿名PK榜单效果已经很逆天了，暂时成为开源之最。

Chinese-Llama3

下面放几个已经开源权重的Chinese-Llama3，这才两天，后面会越来越多，现在还有一些repo在占坑。

一大堆Chinese Llama3正在袭来-AI.x社区

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬们真实太肝了，目前涉及的版本是base和instruct模型利用中文数据直接SFT。

2024-04-19 下午1点：世界上首个llama3 中文版训练完成，晚上没睡觉哈哈，使用170k+高质量多轮中文对话数据连夜训练得到。
2024-04-20 早上7点：v2版训练完成。
2023-04-20 晚上23点：instruct 中文版训练完成。

数据集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的数据。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中国联通AI创新中心开源，目前版本应该也是直接SFT版本，暂不清楚是基于base模型还是instruct模型。说后续会更新64K版本、增量预训练版本。

数据量未知，但表明是高质量指令数据（覆盖多个领域和行业），微调指令数据经过严格的人工筛查（如果真人工，是个大工程）。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

仅通过silk-road/Wizard-LM-Chinese-instruct-evol数据训练2个epoch进行中文测试。其中，maxlenght=2k、bs=8、steps=500。

写在最后

开源社区真的太卷了，上面两个项目都号称首个Chinese-Llama3，但暂时开源的还是Chinese-Llama3-8B为主，也可以理解，毕竟8B训练的更快。

期待后面更多的Chinese-Llama3出来，相信不久ymcui、lily、firefly、 IDEA等都会开中文Llama3吧。

本文转载自 NLP工作站，作者：刘聪NLP

标签

Llama3

训练

中文测试

相关推荐

Meta 发布Llama 3，能力直逼GPT-4,一己之力拉高开源大模型水位

51CTO技术栈 • 2624浏览 • 0回复
大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五

Crystalcxt • 2423浏览 • 0回复
低比特量化的LLAMA3模型有多好？ | 香港大学&北航最新研究发布

angel • 4710浏览 • 0回复
大模型竞技场全面测评结果出炉：Llama3 70B成开源模型中最强王者！

AIGC最前线 • 4446浏览 • 0回复
Llama3背后的秘密：HuggingFace发布万亿级数据集Fineweb

AIGC最前线 • 5540浏览 • 0回复
仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

轻薄滴假象 • 1513浏览 • 0回复
LangChain v0.2：向稳定性迈进的一大步

ermulong • 2226浏览 • 0回复
仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

轻薄滴假象 • 1443浏览 • 0回复
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

Crystalcxt • 1107浏览 • 0回复
Llama3实操增强的三种方式：RAG/Agent/Function Calling！！！

玄姐聊AGI • 3755浏览 • 0回复
Meta LlaMA 3模型深度解析

51CTO内容精选 • 2480浏览 • 0回复
32专家MoE大模型免费商用！性能全面对标Llama3，单token推理消耗仅5.28%

Crystalcxt • 1423浏览 • 0回复
Llama-2 vs. Llama-3：利用微型基准测试（井字游戏）评估大模型

Baihai_IDP • 1440浏览 • 0回复
性能超Llama 3，可商用！开源大模型Falcon 2

Aceryt • 1826浏览 • 0回复
【创新一夏学习季】热浪升温，创新一夏，释放开发潜能

AI.x社区官方账号 • 52.7w浏览 • 39回复
一大堆Llama3.1-Chinese正在袭来

NLP工作站 • 1386浏览 • 0回复
基于Llama3，为本地文件创建生成式AI搜索引擎

小虎哦哦 • 1133浏览 • 0回复
微软、Anthropic正在拉满大模型的情绪价值

51CTO技术栈 • 892浏览 • 0回复
机器学习 | 从0开发大模型-译llama3-from-scratch

周末程序猿 • 411浏览 • 0回复

NLP工作站

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

一大堆Chinese Llama3正在袭来

写在前面

Llama3

Chinese-Llama3

CrazyBoyM/llama3-Chinese-chat

UnicomAI/Unichat-llama3-Chinese

BoyangZ/llama3-chinese

写在最后

目录