鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

一大堆Llama3.1-Chinese正在袭来精华

发布于 2024-8-1 14:19

浏览

0收藏

写在前面

Llama3.1模型已经开源，在这短短几天之内，也是出现了一些Llama3.1汉化的repo，开源社区也是相当的卷。

主要是Llama3.1没有关注中文，虽然是多语言，但主要针对英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。

虽然让Llama3.1系列模型用中文回答时，也可以正常回答，但仍然有中英文混合现象，并且词表是真没中文呀，中文场景下解码效率会比较低。

咋说呢？反正也给中文大模型更多机会吧，开源社区也有更多事情可以做。

对Llama3.1进行中文增强，当然还是那几步：扩充中文词表、中文数据continue-pretrain、中文sft。

下面先简单过一下Llama3.1的一些介绍和效果，再给大家分享一些已经开源的Chinese-Llama3.1项目。

Llama3.1介绍和效果

前几天关于Llama3.1的介绍其实一大堆了，我就不过的介绍了，可以看我之前分享的两篇文章Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？和浅谈Llama3.1，从结构、训练过程、影响到数据合成。

对于Llama3.1的系列模型，现在很多平台都已经支持，如果本地没有资源部署，可以从这些平台上测试。下面的测试截图均来自Hugging Chat测试结果。

HF：https://huggingface.co/chat/1.

虽然Llama3.1-405B模型榜单效果有很秀，但是9.9和9.11谁的大也是一本正经的的胡说八道。

一大堆Llama3.1-Chinese正在袭来-AI.x社区

不过确实是Tokenizer的问题。

一大堆Llama3.1-Chinese正在袭来-AI.x社区

其实对于个人来说比较奇怪，之前一些模型其实都强调过，数字内容按照每个单独数字切割，不知道为啥Llama3.1没有采用该策略。

反正GPT4也是一样。

一大堆Llama3.1-Chinese正在袭来-AI.x社区

下面两个弱智吧的问题，考考Llama3.1（405B）,

石油也是油，为啥没人用它来炒菜？

一大堆Llama3.1-Chinese正在袭来-AI.x社区

如果把脏话都说出来了，那么嘴是不是就干净了

一大堆Llama3.1-Chinese正在袭来-AI.x社区

为什么孙悟空是中国猴子却叫美猴王，不应该叫中猴王吗？

一大堆Llama3.1-Chinese正在袭来-AI.x社区

下雨天关节疼那我骗它是晴天不就不会疼了。

一大堆Llama3.1-Chinese正在袭来-AI.x社区

整体来说，还是比较不错的，可以理解其中的含义，不过如果不强调中文回答，总是出现中英混杂的情况。

个人觉得，如果是公开、简单的中文任务，Llama3.1还是可以直接使用的，但如果是比较领域、具化的场景，可能效果不会很好。

本人在自己的一个中文分类场景上，比较过Qwen2-7B、ChatGLM3-6B和Llama3.1-8B的效果，无论是否SFT，Llama3.1-8B在中文上的效果都要比另外两个差。

PS：个人数据结果，不是绝对，可以自行尝试，同时也欢迎留言讨论。

Chinese-Llama3.1模型

下面放几个已经开源权重的Chinese-Llama3.1，这才两天，后面会越来越多，现在还有一些repo在占坑。

shenzhi-wang/Llama3.1-8B-Chinese-Chat
shenzhi-wang/Llama3.1-70B-Chinese-Chat
haijian06/Llama3.1-Chinese-Chat
shareAI/llama3.1-8b-instruct-dpo-zh

但现在还是已SFT为主，在等等会有更多Chinese-Llama3.1系列模型出现，毕竟之前Chinese-Llama3已经有很多模型啦。

骗Star的机会又来啦！！！

写在最后

Llama3.1系列模型的开源意义真是蛮大的，405B证明开源也能追该上闭源，虽然Mistral新开源的123B模型狙击了Llama3.1-405B，但只能说开源真实原来越好了。

但是从真实使用角度来说，还是8B、70B的模型作用更直接，毕竟很多大模型真正落地上线的规模也就8B，要不然并发起来真耗不起。

那么有一个不成熟的想法，是否更大的开源模型利于哪些搞大模型AI平台的厂商，因为自己有一套infra优化机制，专注推理，又有卡，为更多企业提供服务。而小模型才是企业可以自己玩耍的，服务器不用推太多，开源推理框架就够用了。

最后，小扎的格局要打开呀，Mistral-123B都支持中文呦！

本文转载自 NLP工作站，作者：刘聪NLP

标签

赞

收藏

回复

举报

回复

相关推荐

LangChain v0.2：向稳定性迈进的一大步

ermulong • 3255浏览 • 0回复
一大堆Chinese Llama3正在袭来

NLP工作站 • 2357浏览 • 0回复
【创新一夏学习季】热浪升温，创新一夏，释放开发潜能

AI.x社区官方账号 • 52.8w浏览 • 39回复
Llama 3.1磁力链提前泄露！开源模型王座一夜易主，GPT-4o被超越

duhorse • 1867浏览 • 0回复
最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

轻薄滴假象 • 2003浏览 • 0回复
最强大模型 Llama 3.1-405B 架构设计剖析

玄姐聊AGI • 2622浏览 • 0回复
解析Llama 3.1 与Meta 的 AI 战略，以及新的开放前沿模型生态系统

lintoms • 2040浏览 • 0回复
基于Llama 3.1和一台MacBook搭建商用级知识库

玄姐聊AGI • 2469浏览 • 0回复
AI界的新宠：揭秘Llama 3.1如何革新AI合成技术

ermulong • 1975浏览 • 0回复
微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

Aceryt • 1966浏览 • 0回复
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

鲁班模锤1 • 2100浏览 • 0回复
阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

Aceryt • 1889浏览 • 0回复
从 Llama 1 到 3.1：Llama 模型架构演进详解

Baihai_IDP • 3571浏览 • 0回复
Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

老蛀虫 • 2271浏览 • 0回复
使用LLaMA 3.1、Firebase和Node.js，构建一个音控的智能厨房应用程序

51CTO内容精选 • 1675浏览 • 0回复
Dolphin 3.0 发布（Llama 3.1 + 3.2 + Qwen 2.5）：本地优先、可操纵的 AI 模型

Halo咯咯 • 1829浏览 • 0回复
Good Fire AI 针对 Llama 3.1 8B 和 Llama 3.3 70B 的开源稀疏自动编码器 (SAE)

Halo咯咯 • 1394浏览 • 0回复
高管辟谣：Llama4没刷榜！训练没有使用测试集！模型稳定实现需要时间，bug正在修

51CTO技术栈 • 572浏览 • 0回复
NVIDIA开源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 • 111浏览 • 0回复

LV.3

这是一个AI学习、AI资讯类的公众号，我们将定期向您推荐最新讯息

觉得TA不错？点个关注精彩不错过

32

帖子

277

声望

2

粉丝

关注

最近发布

Llama4 模型细节 & 效果实测 8天前发布
Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想 2025-03-27 07:57:17发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

下一篇：浅谈—领域模型训练

社区精华内容

目录

写在前面
Llama3.1介绍和效果
Chinese-Llama3.1模型
写在最后

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载