艾伦人工智能研究所 (AI2) 发布 OLMo 2：在多达 5T 代币上训练的新系列开源 7B 和 13B 语言模型原创精华

发布于 2024-12-11 10:00

浏览

0收藏

01、概述

在人工智能的世界里，语言模型的发展无疑是最令人瞩目的领域之一。这些模型不仅在机器翻译、内容生成和对话式AI应用中扮演着关键角色，而且它们的发展速度和影响力正以前所未有的速度增长。今天，我们就来聊聊这个领域最新的突破——OLMo 2，一个由艾伦人工智能研究所（Allen Institute for AI）推出的开源语言模型家族，它们正在重新定义开源AI的边界。

02、语言模型的挑战与开源的重要性

语言模型的发展一直面临着一个难题：专有模型的主导地位。这些模型通常因为拥有丰富的资源和优化的训练流程而表现优于开源系统。它们利用庞大的数据集、计算能力和先进的专有方法，形成了一个性能差距，这个差距限制了AI技术的普及和创新，因为只有资金雄厚的组织才能负担得起开发这类尖端技术。

然而，开源社区的努力不容忽视。尽管目前的开源方法在可扩展性、训练稳定性和模型性能方面仍需改进，但最近的进展表明，我们正在迎来一个全新的、性能上能与专有模型竞争的开源模型时代。

03、OLMo 2

艾伦人工智能研究所的研究团队推出了OLMo 2，这是一个具有里程碑意义的开源语言模型家族。这些模型提供了7亿（7B）和13亿（13B）参数配置，训练时使用了高达5万亿个token，采用了最先进的技术。通过改进训练稳定性、采用分阶段训练流程和整合多样化的数据集，研究人员缩小了与专有系统（如Llama 3.1）的性能差距。OLMo 2在层归一化、旋转位置嵌入和Z-loss正则化等方面进行了改进，增强了模型的鲁棒性。

艾伦人工智能研究所 (AI2) 发布 OLMo 2：在多达 5T 代币上训练的新系列开源 7B 和 13B 语言模型-AI.x社区

训练过程：分阶段的创新

OLMo 2的训练采用了分两个阶段的课程方法。在第一阶段，占预训练预算的90%，模型在包含3.9万亿个token的OLMo-Mix-1124数据集上进行训练，这些token来自DCLM和Starcoder等高质量的数据仓库。第二阶段则涉及对Dolmino-Mix-1124数据集进行微调，这是一个精选的843亿个token的数据集，包含了基于网络和特定领域的内容。模型融合（model souping）等技术，通过合并检查点来优化性能，在实现7B和13B模型的最终版本中发挥了关键作用。

04、性能评估：OLMo 2的新基准

OLMo 2的性能在开源语言模型领域树立了新的基准。与其前身OLMo-0424相比，OLMo 2在所有评估任务中都显示出显著的提升。值得注意的是，OLMo 2 7B的性能超过了Llama-3.1 8B，而OLMo 2 13B则超越了Qwen 2.5 7B，尽管它们的训练FLOPs更少。使用Open Language Modeling Evaluation System（OLMES）进行的评估，这是一个包含20个基准的套件，证实了这些增益，并突出了在知识回忆、推理和通用语言能力方面的优势。

艾伦人工智能研究所 (AI2) 发布 OLMo 2：在多达 5T 代币上训练的新系列开源 7B 和 13B 语言模型-AI.x社区