Google开源大模型新成员CodeGemma、RecurrentGemma，继Transformer后新架构Griffin诞生原创

AIGC最前线

发布于 2024-4-11 13:25

浏览

0收藏

2024年2月，Google推出了 Gemma，一系列轻量级、先进的开源大模型，这些模型是使用创建 Gemini 模型时所使用的相同研究和技术构建的。

近日，Google宣布了 Gemma 家族的首批新增成员，为机器学习开发者扩展了创新责任的可能性：CodeGemma 用于代码补全和生成任务以及指令跟随，以及 RecurrentGemma，用于研究实验的效率优化架构。

新成员之CodeGemma

为开发者和企业提供的代码补全、生成和聊天利用 Gemma 模型的基础，CodeGemma 为社区带来了强大而轻量级的编码能力。CodeGemma 模型提供了几个优势：

智能代码补全和生成：无论您是在本地工作还是利用云资源，都可以完成代码行、函数，甚至生成整个代码块。
增强的准确性：CodeGemma 模型在主要来自网络文档、数学和代码的 5000 亿标记的英语语言数据上进行训练，生成的代码不仅在语法上更加正确，而且在语义上更有意义，有助于减少错误和调试时间。
多语言熟练：您宝贵的编码助手，可用于 Python、JavaScript、Java 和其他流行的语言。
流程优化：将 CodeGemma 模型集成到您的开发环境中，减少样板代码编写，并专注于更重要和不同的代码——更快地完成工作。

Google开源大模型新成员CodeGemma、RecurrentGemma，继Transformer后新架构Griffin诞生 -AI.x社区

这张表比较了 CodeGemma 在单行和多行代码补全任务上与其他类似模型的性能。在技术报告中了解更多信息。

新成员之RecurrentGemma

为研究人员提供高效、更快速的推断，在更高的批次大小下 RecurrentGemma 是一个在技术上独特的模型，利用循环神经网络和本地注意力来提高内存效率。虽然 RecurrentGemma 达到了与 Gemma 2B 模型相似的基准分数性能，但其独特的架构带来了几个优势：

降低的内存使用：较低的内存需求使得在内存有限的设备上（如单个 GPU 或 CPU）生成更长的样本成为可能。
更高的吞吐量：由于其较低的内存使用，RecurrentGemma 可以以显著更高的批次大小执行推断，从而每秒生成更多的标记（特别是在生成长序列时）。
研究创新：RecurrentGemma 展示了一个非Transformer模型，实现了高性能，突显了深度学习研究的进步。

Google开源大模型新成员CodeGemma、RecurrentGemma，继Transformer后新架构Griffin诞生 -AI.x社区

这张图展示了 RecurrentGemma 如何在序列长度增加时保持其采样速度，而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。

RecurrentGemma基于新架构Griffin

RecurrentGemma是基于一种全新 Griffin 架构的模型，其性能优于 Transformers。

在多个规模上，Griffin 在控制测试中的基准得分均优于 Transformers 基线，无论是在不同参数规模下的 MMLU 得分，还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率优势，具有更快的推断速度和更低的内存使用率。以下是 Huggingface 上发布了这个模型的 2B 版本的性能：

Google开源大模型新成员CodeGemma、RecurrentGemma，继Transformer后新架构Griffin诞生 -AI.x社区