我们一起聊聊Google DeepMind推出Gemma 2 技术报告

发布于 2024-8-6 11:01
浏览
0收藏

引言:大规模语言模型的发展与挑战

近年来,大规模语言模型(LLMs)在语言理解、生成和推理方面展现出了强大的能力。随着模型规模的不断扩大,新的能力也逐渐显现。最新的大型模型不仅在推理基准测试上达到了前所未有的性能,还展示了多模态和多语言的能力,甚至能处理超过1M个令牌的上下文长度。

尽管小规模模型的性能也在迅速提升,这些提升主要来自于增加训练长度。然而,这种方法与数据集大小的增长呈对数关系,最新的小型模型需要高达15T令牌才能将艺术状态提高不到1-2%。

这些持续的改进表明,小型模型仍然存在未充分训练的问题。在本工作中,我们探索了提高小型模型性能的替代方法,而不仅仅是增加训练长度。一种解决方案是改进网络在每个训练步骤中接收的信息质量,通过替换下一个令牌预测任务来实现,采用更丰富的目标。我们采用了知识蒸馏方法,这种方法经常被用来减少小型模型的训练时间,通过提供更丰富的梯度。

此外,我们还利用了几种已知的Transformer修改技术,例如交替使用全局和局部注意力层,以及分组查询注意力机制。通过这些技术的应用,我们的模型在与规模相当的开放模型相比,显著提升了性能,并且在某些情况下,甚至能与规模是其两倍的模型竞争。

总的来说,这些技术的应用不仅提升了小型模型的性能,也为大规模语言模型的发展提供了新的可能性。然而,这些模型的测试不能覆盖所有应用场景,因此在部署或使用之前,所有用户都应进行严格的安全测试。

论文标题、机构、论文链接和项目地址

1. 论文标题:Gemma 2: Improving Open Language Models at a Practical Size

2. 机构:Google DeepMind

3. 论文链接:​​https://arxiv.org/pdf/2408.00118.pdf​

模型架构与技术创新

1. Gemma 2模型的基本架构

Gemma 2模型继承了Gemma系列模型的基本架构,采用了解码器仅Transformer架构(Vaswani et al., 2017)。这种架构特别强调了使用旋转位置嵌入(RoPE)(Su et al., 2021)和近似的GeGLU非线性激活函数(Shazeer, 2020)。在Gemma 2中,与Gemma 1相比,采用了更深的网络层次结构,并在每个Transformer子层中使用了RMSNorm(Zhang and Sennrich, 2019)进行输入和输出的规范化,以稳定训练过程。

2. 知识蒸馏与训练数据的使用

在Gemma 2的开发中,采用了知识蒸馏技术(Hinton et al., 2015),这是一种通过大模型(教师模型)来训练小模型(学生模型)的方法。具体来说,通过模拟教师模型对每个令牌的概率分布,来训练学生模型,而不是简单的下一个令牌预测。这种方法可以给小模型提供更丰富的梯度信息,从而在不增加训练令牌数量的情况下,显著提高模型性能。例如,Gemma 2的27B模型在13万亿令牌上进行训练,而9B和2B模型分别在8万亿和2万亿令牌上进行训练。

3. 改进的Transformer技术:局部-全局注意力与群组查询注意力

Gemma 2模型在其Transformer层中引入了局部滑动窗口注意力和全局注意力的交替使用(Beltagy et al., 2020a; Luong et al., 2015),这种设计旨在提高模型处理长序列数据的能力。此外,Gemma 2还采用了群组查询注意力(Grouped-Query Attention, GQA)机制(Ainslie et al., 2023),该机制通过将注意力头分组来提高推理时的速度,同时保持下游任务性能。这些技术的应用使得Gemma 2在多项自动化基准测试和人类评估中表现出色,相对于同等规模的开放模型显著提升了性能。

训练过程与数据处理

1. 使用的数据类型与规模

在本次训练中,Gemma 2模型使用了大量的数据,其中27B模型使用了13万亿个主要是英语的token,9B模型使用了8万亿个token,而2B模型则使用了2万亿个token。这些token来源于多种数据源,包括网络文档、代码和科学文章。这些数据的最终混合是通过类似于Gemini 1.0中的方法确定的。

2. 数据过滤与安全性考虑

为了确保数据的安全性和适用性,我们采用了与Gemma 1相同的数据过滤技术。具体来说,我们过滤了预训练数据集以减少不需要或不安全的表达,过滤掉某些个人信息或其他敏感数据,从我们的预训练数据混合中去除评估集的污染,并通过最小化敏感输出的传播来减少背诵的风险。

3. 计算基础设施与优化技术

我们的模型是在TPUv4、TPUv5e和TPUv5p上训练的。具体来说,2B模型在TPUv5e的2x16x16配置上训练,总共使用了512个芯片;9B模型在TPUv4的8x16x32配置上训练,使用了4096个芯片;而27B模型则在TPUv5p的8x24x32配置上训练,使用了6144个芯片。我们还使用了类似于ZeRO-3的技术进一步分片优化器状态。对于超过单个pod的规模,我们在数据中心网络上执行数据副本减少,使用了Pathways方法和单控制器编程范式。此外,我们还使用了GSPMD分区器进行训练步骤计算,以及MegaScale XLA编译器。

模型性能与评估

1. 预训练与指令调优模型的性能

预训练模型和指令调优模型(IT模型)在多个自动化基准测试和人类评估中展示了显著的性能。例如,Gemma 2模型在Chatbot Arena评估中表现优异,其27B模型的Elo评分高于多个竞争模型。此外,这些模型在处理多轮对话和遵循指令的能力上也有所提升,显示出与之前版本相比的显著改进。

2. 人类评估与自动化基准测试

Gemma 2模型在多种领域进行了广泛的评估,包括自动化基准测试和人类偏好评估。在自动化基准测试中,Gemma 2的27B模型与其他大小相近的模型相比表现出色,甚至与训练时间更长、参数量更大的模型竞争。在人类评估方面,Gemma 2模型在Chatbot Arena中的表现尤为突出,其中27B模型的Elo评分超过了多个竞争模型。

3. 知识蒸馏对小模型性能的影响

知识蒸馏是一种有效的技术,可以显著提升小模型的性能。通过使用大模型作为教师模型,小模型可以在训练过程中学习到更丰富的信息,从而提高其性能。例如,Gemma 2的2B和9B模型通过知识蒸馏训练,与以往版本相比,在多个基准测试中显示出了10%的性能提升。这证明了即使在相同的训练代币数量下,知识蒸馏也能显著提高模型的质量和效果。

我们一起聊聊Google DeepMind推出Gemma 2 技术报告-AI.x社区

我们一起聊聊Google DeepMind推出Gemma 2 技术报告-AI.x社区

安全性、隐私与责任

1. 模型的隐私保护与数据安全

在大型语言模型的开发和部署过程中,隐私保护和数据安全是不可或缺的考虑因素。Gemma 2模型在训练阶段采用了多种数据过滤技术,以减少不希望或不安全的表达的风险。特别是,它们过滤掉了某些个人信息或其他敏感数据,以防止这些数据在模型训练过程中被不当使用。此外,为了减少模型输出中的敏感信息,Gemma 2还实施了严格的输出监控机制,确保不会泄露用户的私人信息。

2. 安全政策与训练时的缓解措施

Gemma 2的开发团队采取了多项措施来确保模型的安全性,包括在模型的训练和微调阶段采用安全策略和缓解措施。这些措施旨在防止模型生成有害内容,例如儿童性虐待和剥削内容、揭露可能导致伤害的个人身份信息、仇恨言论和骚扰以及危险或恶意内容。通过这些综合性的安全策略,Gemma 2能够在多种使用场景中提供更为安全的应用保障。

3. 对模型潜在风险的评估与管理

对于Gemma 2模型的潜在风险,开发团队进行了全面的评估和管理。这包括使用外部基准评估模型的安全性能,以及运行保证评估来理解模型可能造成的伤害。例如,Gemma 2在多个安全基准上的表现优于先前的模型,特别是在儿童安全内容上的违规率显著降低。此外,团队还评估了模型在生物、放射性和核风险方面的知识水平,确保模型不会被用于不当用途。

通过这些综合性的措施,Gemma 2不仅在功能性能上有所提升,同时也在安全性、隐私保护和责任性方面设立了新的标准,确保技术的积极影响最大化,同时降低潜在的负面影响。

本文转载自 AI论文解读​,作者:柏企

已于2024-8-6 11:34:41修改
收藏
回复
举报
回复
相关推荐