INTELLECT-1:全球首个去中心化训练的 10B 参数大模型

发布于 2024-12-4 11:58
浏览
0收藏

近日,Prime Intellect 团队发布了全球首个由全球协作训练的 10B 参数语言模型——INTELLECT-1 。这一突破性成果不仅标志着大规模模型训练不再局限于大型企业,而是可以通过分布式、社区驱动的方式实现,为未来的 AI 发展开辟了新的道路。

INTELLECT-1:全球首个去中心化训练的 10B 参数大模型-AI.x社区

项目亮点

INTELLECT-1 的成功训练涉及五大洲、五个国家,同时使用了 112 台H100 GPU,由全球 30 位贡献者共同完成。这一壮举不仅展示了分布式训练的巨大潜力,还实现了高计算利用率:在美国境内达到 96%,跨洋训练也有 83%的效率,整个训练过程仅耗时 42 天。

技术细节

INTELLECT-1 基于 Llama-3 架构,拥有 42 层、 4,096 个隐藏维度、 32 个注意力头和 8,192 的序列长度。模型训练使用了 1万亿个 token 的数据集,包括 FineWeb-Edu 、Stack v2 等多种数据源。

INTELLECT-1:全球首个去中心化训练的 10B 参数大模型-AI.x社区

Prime Intellect 团队开发的 PRIME 框架是这一项目的核心。该框架包括ElasticDeviceMesh,用于动态管理全球和本地进程组,确保通信的容错性;还实现了 live checkpoint recovery 和hybrid DiLoCo-FSDP2,大幅降低了通信带宽需求。

同时,Prime Intellect 慷慨的开源了所有相关资源:

  • 详细技术报告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
  • INTELLECT-1 基础模型、检查点和后训练模型:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct

在线聊天体验:https://chat.primeintellect.ai/,

INTELLECT-1:全球首个去中心化训练的 10B 参数大模型-AI.x社区

                                                     似乎不太聪明

  • 预训练数据集:https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407
  • 后训练数据集:https://huggingface.co/datasets/arcee-ai/EvolKit-75K
  • PRIME 框架:https://github.com/PrimeIntellect-ai/prime

小结

开放、去中心是模型民主化的最重要的一步,INTELLECT-1 已经做到了。我们期待Prime Intellect 能够进一步优化分布式训练架构,跟上主流模型的模型性能表现,更早落地应用。

本文转载自AI工程化,作者: ully ​​

收藏
回复
举报
回复
相关推荐