Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

发布于 2024-7-30 00:37

1734浏览

0收藏

Meta开源了Llama3.1系列模型，最大参数规模为405B，开源也是好起来了，榜单指标直逼GPT4-o。

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？-AI.x社区

开源追上闭源模型不再是梦！Llama系列模型确实是开源界的头部，真金白银砸出来的就是不一样。

不过现在大家也都知道，榜单效果和真实使用效果也不是完全正比的，后面看看对lmsys战榜单，还有大家的实测效果吧！

HF: https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f1.

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？-AI.x社区

Llama3.1系列模型细节

15T Tokens预训练；占比知识50、数学25、代码17、语言8
8B、70B、405B的模型均采用GQA；
405B模型，有126层，词表大小128256，隐藏层维度16384；8B和70B模型与llama3一样就不介绍了；

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？-AI.x社区

支持上下文长度128k；
支持多语言，包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语；当然其他语言也可以使用，只是没有针对性进行安全测试。
instruct模型微调使用了公开可用的指令数据集，以及超过2500万的合成数据

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？-AI.x社区

8B模型预训练用了146万 GPU小时，70B模型预训练用了700万 GPU小时，405B模型预训练用了3084万 GPU小时；

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？-AI.x社区

Llama3.1系列模型效果

Llama3.1系列的8B和70B模型的效果，普遍好于Llama3系列模型。尤其是Instruct模型提升较高，特别是通用、代码、数学和工具使用四个方面，大幅提高；额外添加的合成数据，应该是关键。

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？-AI.x社区

模型使用

Llama3-405B模型整体结构没有变化，所有直接transformers走起。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.