鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Ai2开源OLMo 2：数据集、训练方法、权重大放送

发布于 2024-11-29 09:42

2766浏览

0收藏

AI研究机构Ai2开源了最新大模型OLMo 2，这是一款在各方面都真正开放的人工智能模型。

OLMo，即Open Language Model，与Llama和Gemma等流行的开放权重模型不同，它不仅提供模型权重，还包括了工具、数据集、训练配方等所有用于开发模型的内容。

OLMo 2包括了7B和13B两个参数版本，能力都相当优秀。7B版本在英语学术基准测试中超越了Meta的Llama 3.1 8B，而13B版本即使在训练时使用的计算能力较少的情况下，也超过了Qwen 2.5 7B。

开源地址：https://huggingface.co/allenai/OLMo-2-1124-7B

Ai2开源OLMo 2：数据集、训练方法、权重大放送-AI.x社区

OLMo 2的发布是基于今年早些时候发布的首个OLMo模型，Ai2团队采用了创新的两阶段训练方法。他们首先在包含3.9万亿token的大型数据集上进行训练，然后使用来自学术内容、数学练习册和指令集的高质量数据进行优化。

团队特别关注训练的稳定性，并对此进行了关键的改进，以防止在长时间的训练过程中出现性能下降的情况。

此次发布还建立在Ai2近期与开源训练系统Tülu 3合作的基础之上。Tülu 3是一个复杂的后训练过程，它使得OLMo 2具备了与世界上一些最佳模型相当的指令跟随任务能力。

完整的发布内容还包括了评估框架和中间检查点，这些工具可以帮助开发人员深入理解并进一步提升OLMo 2的能力。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/Pqk62_DeQU0eRghDyfvKsQ

标签

赞

收藏

回复

举报

回复

相关推荐

2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 3185浏览 • 0回复
模型权重、训练代码等已全部开源

轻薄滴假象 • 2981浏览 • 0回复
开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

duhorse • 2500浏览 • 0回复
值得细读的八个视觉大模型生成式预训练方法

angel • 5063浏览 • 0回复
Web2Code：适用于多模态大模型的大规模网页转代码数据集与评估框架

sbf_2000 • 3706浏览 • 0回复
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的？

arnoldzhw • 2914浏览 • 0回复
AI2惊艳发布OneDiffusion：突破性大规模扩散模型，支持多任务生成与理解，重塑视觉AI应用

angel • 2411浏览 • 0回复
低资源场景下Text2SQL方法

大模型自然语言处理 • 1634浏览 • 0回复
大模型三阶段训练方法(LLaMa Factory)

一起AI技术 • 1.0w浏览 • 0回复
艾伦人工智能研究所 (AI2) 发布 OLMo 2：在多达 5T 代币上训练的新系列开源 7B 和 13B 语言模型

Halo咯咯 • 2378浏览 • 0回复
革命性AI学习方法OptiDEL：用5%的数据超越全数据集性能！

AI论文解读 • 1489浏览 • 0回复
大模型训练之训练数据准备，即怎么准备高质量的训练数据集？

AI探索时代 • 2643浏览 • 0回复
苹果开源通用视觉模型：创新训练方法，超1000颗星

Aceryt • 1336浏览 • 0回复
模型训练之数据集操作——矩阵变换

AI探索时代 • 1246浏览 • 0回复
Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

大模型自然语言处理 • 1430浏览 • 0回复
多模态大模型Ovis核心技术点、训练方法、数据细节

大模型自然语言处理 • 1263浏览 • 0回复
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

大模型自然语言处理 • 1942浏览 • 0回复
媲美OpenAI-o3，刚刚开源模型DeepCoder，训练方法、数据集大公开

Aceryt • 562浏览 • 0回复
英伟达开源15T数据集：32万个机器人训练轨迹

Aceryt • 904浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

斯坦福等开源代码定位AI Agent，极大提升开发、维护效率 4天前发布
AI Agent大变天！谷歌开源A2A，一夜改变智能体交互 4天前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：谷歌发布双思维AI Agent：像人类一样思考，重大技术突破！

下一篇：史上最贵！首个AI Agent程序员商业化，比ChatGPT Pro贵2倍

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载