Google Gemma 3：性能“炸裂”还是榜单优化？

amei2000go

发布于 2025-3-27 07:18

浏览

0收藏

一、背景

最近几天 Google 发布了最新的 Gemma 3 系列开源模型，迅速成为业界热议的焦点，其中，Gemma 3 27B IT 模型尤为引人注目。如下图所示为 Google 广泛宣传的 Gemma 3 27B IT 模型在 Chatbot Arena Leaderboard [1]上的表现，以 27B 的参数量，不仅超越了更大参数量的 DeepSeek V3（实际激活参数量差不多），并且接近顶尖的 DeepSeek R1。事实上性能真的这么“炸裂”吗？还是面向 Chatbot Arena 的优化？值得注意的是，Chatbot Arena 的排名基于用户盲测投票，容易受到写作风格、响应速度以及特定用户群体偏好的影响——例如，用户往往更青睐反应迅速、语言自然且能灵活应对多样化问题的模型。因此，这一榜单未必能全面反映模型的真实能力。

Google Gemma 3：性能“炸裂”还是榜单优化？-AI.x社区

事实上，当前大模型评测体系的混乱已是不争的事实：测试基准五花八门切缺乏不一致，许多基准与实际业务需求脱节，数据污染与过拟合问题更是屡见不鲜。这使得挑选一个真正实用的模型变得很有挑战性，用户不得不在真实场景中要反复试错，浪费大量人力与算力资源。很期待未来有一些更全面、更权威的基准。同时，也真的期待有一个 30B 左右规模的 Dense 模型，在性能上全面媲美 DeepSeek R1，将无疑是开源社区和实际应用的一大福音。本文将简要探讨 Gemma 3 27B IT 模型的技术亮点与潜在局限。

相关工作可以参考我们之前的文章：

二、Gemma 3 模型

2.1 概览

如下图 Table 1 所示，Gemma 3 总共包含 4 个模型：

1B 为纯 LLM 模型，4B、12B 和 27B 为多模态模型。
1B 使用 2T Token 预训练；4B 使用 4T Token；12B 和 27B 使用 14T Token（PS：目前看 14T - 15T Token 基本成为标配）。
现在 32K 序列长度预训练，然后扩展到 128K 的序列长度。
支持 140 种语言。
支持 Function Call 和结构化输出。
总词表大小为 262K，相对而言，常见的开源模型的词表通常是 128K 左右。
Vision Encoder 相同，都是 SigLIP 417M，输入分辨率为 896x896。
Pan & Scan（P&S）：如果图像比较大，则会采用无重叠的切分，然后分别 Resize 到 896x896（PS：这个也是非常常规的手段）。

Google Gemma 3：性能“炸裂”还是榜单优化？-AI.x社区

对应的论文：Gemma 3 Technical Report [2]

对应的模型：google/gemma-3-27b-it at main [3]

2.2 模型结构

现在 LLM 处理的序列越来越长，为了降低 KV Cache 存储空间以及 Attention 的计算复杂度，最近一段时间很多模型都采用“混合模型”优化方案：

MiniMax 01：采用 Linear Attention 和 Softmax Attention 混合方案。为了弥补 Linear Attention 长距离序列建模能力不足的问题，每隔 M 层会采用一个标准的 Full Softmax Attention。
Hunyuan Turbo S：采用 Mamba + Full Softmax Attention + MoE 的方式，Mamba 作用和 Linear Attention 类似。
Gemma 3 27B：GQA + 5:1 交错的 local/global layers。其中的 5:1 交错是指：5 层为滑动窗口 Attention，1 层为 Full Softmax Attention，交错排列。

如下图配置所示为其中 LLM 的具体配置，可以看出，总共 62 层；GQA 中 Attention Head 与 KV Head 的比例为 2:1；滑动窗口的大小为 1024。也就是只要序列长度大于 1024，就可以节约 KV Cache 空间以及 Attention 计算量。

Google Gemma 3：性能“炸裂”还是榜单优化？-AI.x社区

PS：除了上述的混合模型外，最近 Inception Labs 的 Mercury [10] 模型也很值得关注。其不是使用传统的基于自回归的 Transformer 模型，而是采用了类似图像、视频生成中常用的扩散模型，从噪声开始逐步优化整个文本序列，而不是逐个生成 token。虽然其在各种基准测试上还无法达到第一梯队，但是在速度和成本效率上具有非常明显的优势，在个别场景上可能也是个不错的选择。如下图所示为其在个别任务上的精度以及吞吐数据：

Google Gemma 3：性能“炸裂”还是榜单优化？-AI.x社区

2.3 量化

除了模型结构的创新外，量化也是降低存储空间需求、提升处理速度的有效手段。Gemma 3 中，作者除了提供原始模型外，还提供了不同量化精度的量化版本，这些模型都是采用量化感知训练（Quantization Aware Training, QAT）方法，通过少量 Step（通常是 5000）微调而来。如下图所示为 32K 序列长度时不同精度下的显存开销，FP8 精度时总的显存开销也只有 46GB：

Google Gemma 3：性能“炸裂”还是榜单优化？-AI.x社区