鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！

发布于 2024-7-26 13:14

浏览

0收藏

Meta的Llama-3.1再经历过泄露、再泄露事件，酝酿了几天，终于在2024.7.23最后十几分钟发布了，包括8B、70B、405B三个尺寸：

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！-AI.x社区

Llama-3.1系列模型特点

Llama 3.1 是一个自回归语言模型，使用优化的变换器架构。调整版本使用监督式微调（SFT）和基于人类反馈的强化学习（RLHF）以符合人类对有用性和安全性的偏好。
提供 8B、70B 和 405B 三种大小的模型。
预训练数据来自公开可用的在线数据，微调数据包括公开可用的指令数据集以及超过 2500 万个合成生成的示例。
支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
支持多语言文本输入和输出，以及代码。
上下文长度为 128k。
知识截止日期为 2023 年 12 月。

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！-AI.x社区

Llama-3.1-405B模型效果评测，整体效果是超过GPT-4与GPT-4 Omni，效果媲美Claude 3.5 Sonnet。

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！-AI.x社区

Llama-3.1垂直场景的效果展示：推理、编码、数学、工具使用（Tool Use）。

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！-AI.x社区

此次发布，大家最关系当属405B，这是此前Llama-3中未发布的尺寸，那么这么大参数模型，需要多大的机器能run起来尼？

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！-AI.x社区

FP16大概需要8*H200 GPUs（1053G）
FP8大概需要8*H100 GPUs （526G）
FP4大概需要263G

Meta正式发布Llama-3.1，超大杯405B！千呼万唤始出来！-AI.x社区

下载地址：https://hf-mirror.com/collections/meta-llama/llama-31-669fc079a0c406a149a5738f1.

本文转载自 PaperAgent ，作者： PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

Llama 3超大杯有何惊喜？Meta会一直开源吗？当初为何笃信元宇宙？扎克伯格新访谈回应一切

轻薄滴假象 • 2074浏览 • 0回复
最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

轻薄滴假象 • 2001浏览 • 0回复
Meta 开源最强大模型Llama 3.1，参数多达 405B，超16000块H100训练，燃烧数亿经费！小扎：坚定开源不动摇！

51CTO技术栈 • 3479浏览 • 0回复
最强大模型 Llama 3.1-405B 架构设计剖析

玄姐聊AGI • 2619浏览 • 0回复
解析Llama 3.1 与Meta 的 AI 战略，以及新的开放前沿模型生态系统

lintoms • 2037浏览 • 0回复
Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

NLP工作站 • 2073浏览 • 0回复
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

鲁班模锤1 • 2100浏览 • 0回复
阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

Aceryt • 1889浏览 • 0回复
Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

NLP工作站 • 3848浏览 • 0回复
开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

老蛀虫 • 4529浏览 • 0回复
开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

老蛀虫 • 3820浏览 • 0回复
从 Llama 1 到 3.1：Llama 模型架构演进详解

Baihai_IDP • 3571浏览 • 0回复
Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

老蛀虫 • 2271浏览 • 0回复
Dolphin 3.0 发布（Llama 3.1 + 3.2 + Qwen 2.5）：本地优先、可操纵的 AI 模型

Halo咯咯 • 1829浏览 • 0回复
Good Fire AI 针对 Llama 3.1 8B 和 Llama 3.3 70B 的开源稀疏自动编码器 (SAE)

Halo咯咯 • 1394浏览 • 0回复
1B模型如何通过测试时优化逆袭405B LLM？

arnoldzhw • 1441浏览 • 0回复
Llama 4 凌晨震撼发布：Meta开源最强MoE多模态模型，1000万上下文碾压行业！

AI博物院 • 829浏览 • 0回复
LLaMA 4来了 | 千呼万唤始出来，犹抱琵琶半遮面 | 不尽如人意

后向传播 • 886浏览 • 0回复
NVIDIA开源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 • 104浏览 • 0回复

LV.7

专注于技术知识整理，包括人工智能、大模型、机器学习等多个领域

觉得TA不错？点个关注精彩不错过

193

帖子

1571

声望

3

粉丝

关注

最近发布

Llama4 刚开源就要被网友玩坏了！ 9天前发布
DeepSeek与Qwen组团开源了模型，冲! 2025-03-26 09:39:51发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： GraphRAG项目雨后春笋般涌现！

下一篇：百度也来卷RAG了，Self-Reasoning比Self-RAG最高提升11.8%

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载