Google Gemma 3:性能“炸裂”还是榜单优化?

发布于 2025-3-27 07:18
浏览
0收藏

一、背景

最近几天 Google 发布了最新的 Gemma 3 系列开源模型,迅速成为业界热议的焦点,其中,Gemma 3 27B IT 模型尤为引人注目。如下图所示为 Google 广泛宣传的 Gemma 3 27B IT 模型在 Chatbot Arena Leaderboard  [1]上的表现,以 27B 的参数量,不仅超越了更大参数量的 DeepSeek V3(实际激活参数量差不多),并且接近顶尖的 DeepSeek R1。事实上性能真的这么“炸裂”吗?还是面向 Chatbot Arena 的优化?值得注意的是,Chatbot Arena 的排名基于用户盲测投票,容易受到写作风格、响应速度以及特定用户群体偏好的影响——例如,用户往往更青睐反应迅速、语言自然且能灵活应对多样化问题的模型。因此,这一榜单未必能全面反映模型的真实能力。

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

事实上,当前大模型评测体系的混乱已是不争的事实:测试基准五花八门切缺乏不一致,许多基准与实际业务需求脱节,数据污染与过拟合问题更是屡见不鲜。这使得挑选一个真正实用的模型变得很有挑战性,用户不得不在真实场景中要反复试错,浪费大量人力与算力资源。很期待未来有一些更全面、更权威的基准。同时,也真的期待有一个 30B 左右规模的 Dense 模型,在性能上全面媲美 DeepSeek R1,将无疑是开源社区和实际应用的一大福音。本文将简要探讨 Gemma 3 27B IT 模型的技术亮点与潜在局限。

相关工作可以参考我们之前的文章:

二、Gemma 3 模型

2.1 概览

如下图 Table 1 所示,Gemma 3 总共包含 4 个模型:

  • 1B 为纯 LLM 模型,4B、12B 和 27B 为多模态模型
  • 1B 使用 2T Token 预训练;4B 使用 4T Token;12B 和 27B 使用 14T Token(PS:目前看 14T - 15T Token 基本成为标配)。
  • 现在 32K 序列长度预训练,然后扩展到 128K 的序列长度
  • 支持 140 种语言
  • 支持 Function Call 和结构化输出
  • 总词表大小为 262K,相对而言,常见的开源模型的词表通常是 128K 左右。
  • Vision Encoder 相同,都是 SigLIP 417M,输入分辨率为 896x896
  • Pan & Scan(P&S):如果图像比较大,则会采用无重叠的切分,然后分别 Resize 到 896x896(PS:这个也是非常常规的手段)。

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

对应的论文:Gemma 3 Technical Report [2]

对应的模型:google/gemma-3-27b-it at main [3]

2.2 模型结构

现在 LLM 处理的序列越来越长,为了降低 KV Cache 存储空间以及 Attention 的计算复杂度,最近一段时间很多模型都采用“混合模型”优化方案:

  • MiniMax 01:采用 Linear Attention 和 Softmax Attention 混合方案。为了弥补 Linear Attention 长距离序列建模能力不足的问题,每隔 M 层会采用一个标准的 Full Softmax Attention。
  • Hunyuan Turbo S:采用 Mamba + Full Softmax Attention + MoE 的方式,Mamba 作用和 Linear Attention 类似。
  • Gemma 3 27B:GQA + 5:1 交错的 local/global layers。其中的 5:1 交错是指:5 层为滑动窗口 Attention,1 层为 Full Softmax Attention,交错排列。

如下图配置所示为其中 LLM 的具体配置,可以看出,总共 62 层;GQA 中 Attention Head 与 KV Head 的比例为 2:1;滑动窗口的大小为 1024。也就是只要序列长度大于 1024,就可以节约 KV Cache 空间以及 Attention 计算量。

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

PS:除了上述的混合模型外,最近 Inception Labs 的 Mercury [10] 模型也很值得关注。其不是使用传统的基于自回归的 Transformer 模型,而是采用了类似图像、视频生成中常用的扩散模型,从噪声开始逐步优化整个文本序列,而不是逐个生成 token。虽然其在各种基准测试上还无法达到第一梯队,但是在速度和成本效率上具有非常明显的优势,在个别场景上可能也是个不错的选择。如下图所示为其在个别任务上的精度以及吞吐数据:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

2.3 量化

除了模型结构的创新外,量化也是降低存储空间需求、提升处理速度的有效手段。Gemma 3 中,作者除了提供原始模型外,还提供了不同量化精度的量化版本,这些模型都是采用量化感知训练(Quantization Aware Training, QAT)方法,通过少量 Step(通常是 5000)微调而来。如下图所示为 32K 序列长度时不同精度下的显存开销,FP8 精度时总的显存开销也只有 46GB:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

2.4 消融实验

即使滑动窗口层(Local)与标准 Transformer 层(Global)的比例为 7:1,损失依然很小,作者采用了 5:1。

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

滑动窗口大小为 1024 时几乎无损,但是小于 1024 时损失开始变大:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

更小的滑动窗口,更大的 Local:Global,可以有效降低 KV Cache 开销:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

如下图 Table 7 所示,作者也进一步评估了不同图像分辨率对于视觉任务的影响。可以看出,较大的分辨率能明显提升在视觉基准上的性能:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

三、评估

3.1 概览

如下图 Table 6 所示,作者仅提供了与自家 Gemini 和 Gemma 模型的比较,而未提供更多开源模型的结果(PS:声称是无法保持公平性🐶)。因此,我们从一些比较可信的数据源收集到一些 DeepSeek 的基准数据以作对比:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

如下图所示为 Grok 3 的 DeepSearch 收集到的部分数据:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

3.2 MMLU-Pro

参考:MMLU-Pro Leaderboard - a Hugging Face Space by TIGER-Lab [4]

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

3.3 LiveCodeBench

参考:

  • Introducing Gemini 2.0: our new AI model for the agentic era [5]
  • Gemini 2.0 is now available to everyone [6]
  • LiveCodeBench Leaderboard [7]

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

3.4 GPQA Diamond

参考:LLM Leaderboard 2025 [8]

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

3.5 FACTS Grounding

这个看着是 Google 自己的榜单:https://www.kaggle.com/facts-leaderboard/leaderboard [9]

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

3.6 评估细节

虽然说 Google 在宣传上有点鸡贼,但是其一般都会比较准确列出基准评估的细节,比如采用的 n-shot 配置,是否使用 CoT 等等,如下图 Table 19 所示:

Google Gemma 3:性能“炸裂”还是榜单优化?-AI.x社区

四、参考链接

  1. ​https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard​
  2. ​https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf​
  3. ​https://huggingface.co/google/gemma-3-27b-it/tree/main​
  4. ​https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro​
  5. ​https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/​
  6. ​https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/​
  7. ​https://livecodebench.github.io/leaderboard.html​
  8. ​https://www.vellum.ai/llm-leaderboard​
  9. ​https://www.kaggle.com/facts-leaderboard/leaderboard​
  10. ​https://www.inceptionlabs.ai/news​

 

本文转载自​​AI闲谈​​,作者:AI闲谈

收藏
回复
举报


回复
相关推荐