鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

INTELLECT-1：全球首个去中心化训练的 10B 参数大模型

发布于 2024-12-4 11:58

浏览

0收藏

近日，Prime Intellect 团队发布了全球首个由全球协作训练的 10B 参数语言模型——INTELLECT-1 。这一突破性成果不仅标志着大规模模型训练不再局限于大型企业，而是可以通过分布式、社区驱动的方式实现，为未来的 AI 发展开辟了新的道路。

INTELLECT-1：全球首个去中心化训练的 10B 参数大模型-AI.x社区

项目亮点

INTELLECT-1 的成功训练涉及五大洲、五个国家，同时使用了 112 台H100 GPU，由全球 30 位贡献者共同完成。这一壮举不仅展示了分布式训练的巨大潜力，还实现了高计算利用率：在美国境内达到 96%，跨洋训练也有 83%的效率，整个训练过程仅耗时 42 天。

技术细节

INTELLECT-1 基于 Llama-3 架构，拥有 42 层、 4,096 个隐藏维度、 32 个注意力头和 8,192 的序列长度。模型训练使用了 1万亿个 token 的数据集，包括 FineWeb-Edu 、Stack v2 等多种数据源。

INTELLECT-1：全球首个去中心化训练的 10B 参数大模型-AI.x社区

Prime Intellect 团队开发的 PRIME 框架是这一项目的核心。该框架包括ElasticDeviceMesh，用于动态管理全球和本地进程组，确保通信的容错性；还实现了 live checkpoint recovery 和hybrid DiLoCo-FSDP2，大幅降低了通信带宽需求。

同时，Prime Intellect 慷慨的开源了所有相关资源：

详细技术报告：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
INTELLECT-1 基础模型、检查点和后训练模型：https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct

在线聊天体验：https://chat.primeintellect.ai/，

INTELLECT-1：全球首个去中心化训练的 10B 参数大模型-AI.x社区

似乎不太聪明

预训练数据集：https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407
后训练数据集：https://huggingface.co/datasets/arcee-ai/EvolKit-75K
PRIME 框架：https://github.com/PrimeIntellect-ai/prime

小结

开放、去中心是模型民主化的最重要的一步，INTELLECT-1 已经做到了。我们期待Prime Intellect 能够进一步优化分布式训练架构，跟上主流模型的模型性能表现，更早落地应用。

本文转载自AI工程化，作者： ully

标签

赞

收藏

回复

举报

回复

相关推荐

2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 3265浏览 • 0回复
Meta无限长文本大模型来了：参数仅7B，已开源

轻薄滴假象 • 2352浏览 • 0回复
大模型参数量都是7B，13B和65B等背后的原因是什么？

Syrupup • 1.2w浏览 • 0回复
什么是超参数？大模型的超参数是做什么用的？超参数和大模型参数有什么关系？

AI探索时代 • 5170浏览 • 0回复
大模型所谓的参数是什么？大模型为什么需要训练？大模型训练到底干了什么？

AI探索时代 • 5771浏览 • 0回复
自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

xuxiangda • 4360浏览 • 0回复
Mistral开源首个多模态大模型—Pixtral 12B

Aceryt • 2236浏览 • 0回复
全球首个带背景音乐，文生1080超高清视频模型

Aceryt • 2157浏览 • 0回复
阿里国际发布首个大规模商用翻译大模型Marco，效果超Google、DeepL等，全球开放！

51CTO技术栈 • 2917浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 4172浏览 • 0回复
带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈

玄姐聊AGI • 6121浏览 • 1回复
全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍

轻薄滴假象 • 1445浏览 • 0回复
全球首个混合推理模型Claude 3.7 Sonnet发布，编码能力直接起飞！

AI博物院 • 1824浏览 • 0回复
阿里开源QwQ-32B，性能与Deepseek R1持平。一个拥有320亿参数的全新推理模型

Halo咯咯 • 1877浏览 • 0回复
Vision-R1：多模态领域的DeepSeek R1-Zero，7B参数比肩OpenAI O1

Syrupup • 1398浏览 • 0回复
QwQ-32B 大战 DeepSeek-R1：小参数量模型能否逆袭？

Halo咯咯 • 1947浏览 • 0回复
音乐界的DeepSeek来了！全球首个音乐推理大模型Mureka O1上线，音乐领域要迎来大变革了？

算家计算 • 938浏览 • 0回复
UB-Mesh：一种分层局部化的n维全互连数据中心网络架构

chengganfei • 3041浏览 • 0回复
国产大模型崛起！智谱发布GLM-4-32B-0414系列模型，以32B模型参数比肩GPT-4o和DeepSeek V3/R1

AIGCStudio • 100浏览 • 0回复

LV.6

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家

觉得TA不错？点个关注精彩不错过

93

帖子

1010

声望

6

粉丝

关注

最近发布

大模型展示的推理过程可信吗？Anthropic这项研究给出了一些答案 9天前发布
Qwen2.5-VL-32B 更小更聪明！与grok、gemini同台打造“治愈老奶奶”，谁更强？ 2025-03-26 00:48:45发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： AI 推理市场全景解析：战火从云端到边缘端

下一篇：微软 Phi-4 震撼发布：14B 参数模型性能超越一众大模型，数学推理性能提升显著

社区精华内容

目录

项目亮点
技术细节
小结

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载