力压DeepSeek-R1！谷歌Gemini 2.0系列集体上新，全员跻身大模型竞技场前10-51CTO.COM

终于，谷歌DeepMind坐不住了，出手就是超越DeepSeek-R1！

劈柴哥亲自官宣Gemini 2.0家族更新，分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。

同时，稳居大模型竞技场第1名的推理模型Gemini 2.0 Flash Thinking，已在Gemini App中推出。

至此，Gemini 2.0家族所有模型，全部跻身大模型竞技场前10。

且Gemini 2.0 Pro超过了DeepSeek-R1。

谷歌首席科学家Jeff Dean表示：“与1.5系列模型相比，2.0系列的每一款通常都比1.5系列的同型号更好”。

而此次上新中，尤其值得关注的模型，有2个。

一个是Gemini 2.0 Pro，谷歌迄今为止在编码和复杂指令任务中表现最好的模型，200万tokens上下文窗口，支持调用谷歌搜索和代码执行等工具。

一个是Gemini 2.0 Flash-Lite，谷歌目前为止性价比最高的模型，针对大规模文本输出用例进行了成本优化（让我们谢谢DeepSeek），还杀进了竞技场总榜前十。

模型使用成本也一降再降，甚至被有的网友调侃，这些模型年纪轻轻就出来打工，还基本免费打工，为爱发电那种。

网友一边直呼鹅妹子嘤，一边玩儿得很开心。

上来就是最近o3-mini和DeepSeek-R1激烈对垒过的六边形内晃小球。

Prompt：编写一个脚本，显示一个球在旋转的六边形内部弹跳。球应该受到重力和摩擦的影响，并且必须真实地弹跳 off 转动的墙壁。使用 p5.js 实现。

你将得到：

而此前o3-mini和DeepSeek-R1的表现分别如下：

高下如何，大家自己评估。

现在起，Gemini 2.0所有人可用

展开来说，此次发布的Gemini 2.0家族三款模型，分别是：

Gemini 2.0 Flash更新版：通用首选
Gemini 2.0 Pro实验版：谷歌最强
Gemini 2.0 Flash-Lite：性价比首选

所有这些模型在发布时都将支持多模态输入，并生成文本输出。

加上此前就亮相了的Gemini 2.0 Flash Thinking，家族全家福现在如下。

在通用、代码、推理、多模态、数学、长文本、图像、音视频等方面，家族3名新成员的成绩如下。

不愧是谷歌自己的新王者，Gemini 2.0 Pro在13项评测中，拿下11个第一。

同时，让人眼前一亮的是，Gemini 2.0 Flash-Lite在Factuality的FACTS Grounding这一项，以84.6%的成绩勇夺桂冠，力压Gemini 2.0 Pro。

下面，我们来分别仔细看看新出现的3名家族成员的具体情况。

谷歌最强：Gemini 2.0 Pro实验版

Gemini 2.0 Pro是谷歌DeepMind迄今为止最强的模型，不过官方暂且只放出了实验版。

它具有最强的编码性能和处理复杂提示的能力，对世界知识的理解和推理能力也是谷歌最强。

此外，Gemini 2.0 Pro实验版配备了谷歌最大的上下文窗口，即200万tokens。

这使得它能够全面分析和理解大量信息，并具备调用如谷歌搜索和代码执行等工具的能力。

现在，作为实验性模型，Gemini 2.0 Pro已经在Google AI Studio和Vertex AI提供给开发者使用。

如果你是Gemini Advanced的用户，可以在PC端和移动设备端的模型下拉菜单中选中它，进行使用。

最为通用：新版Gemini 2.0 Flash

去年2024年谷歌I/O大会上，Gemini 2.0 Flash实验版首次亮相。

现在，Gemini 2.0 Flash已经集成到谷歌的AI产品中，人人可用。

谷歌DeepMind的CTO，同时代表了Gemini团队的Koray Kavukcuoglu在博客中表示，Gemini 2.0 Flash提供了全面的功能，适合大规模处理高容量、高频率任务。

并且具备100万tokens长文本能力，支持对海量信息进行多模态推理。

目前，Gemini 2.0 Flash支持多模态输入和文本单模态输出，而图像生成和文本转语音功能已经在路上了，“未来几个月，将提供Gemini 2.0 Flash的多模态Live API”。

当前用法如下：

普通用户：Gemini App中试玩
开发者：Google AI Studio和Vertex AI中调用API

性价比首选：Gemini 2.0 Flash-Lite

基于“希望在保持1.5 Flash成本和速度的同时，继续提高模型质量”，谷歌DeepMind推出了Gemini 2.0 Flash-Lite。

这个模型速度和成本与Gemini 1.5 Flash持平，但大多数基准测试中，模型能力优于1.5 Flash。

虽然是Lite版本，但其长文本能力并没有打折——和2.0 Flash一样，它具备100万tokens的上下文窗口，同时支持多模态输入。

而且巨便宜。

便宜到什么地步呢？给大家一个更能感知的例子：

如果让Gemini 2.0 Flash-Lite为4万张左右的不同照片，各自生成一句描述简介，按Google AI Studio定价，这个任务花费的总成本不超过1美元（约7.2751元）。

综上，谷歌用一张图明确表现了3名Gemini 2.0家族新成员的现有能力：

来自DeepSeek的无形压力？

模型一登场，网友们已经玩飞了！

身先士卒的Jeff Dean，第一个奉上他用Gemini 2.0 Pro编程做出的益智休闲类Boggle游戏（他的最爱）。

有人问生成代码并解释需要多长时间，Jeff还很直接地回应了网友，表示：答案是18.9秒。

他激情解说，只需一个相对简单的提示词，Gemini 2.0 Pro就能写出完整的代码，其中包括所有正确的数据结构和搜索算法；它还能找到Boggle棋盘上的所有有效单词。

作为一名计算机科学家，我也很高兴它在第一个前缀树中就正确地使用了数据结构。

紧随其后，还有网友搞了个狂野版贪吃蛇。“Google Gemini 2.0一次性生成，带编码器模式！创建一个自己爬行扭起来的贪吃蛇游戏，其中100条蛇竞争狂舞。”虽然他没有在评论区回复到底是用的是Gemini 2.0家族的哪个模型，但效果还是不错滴！

另外值得重视的一个小点——

谷歌DeepMind的CTO在博客中写道，这些发布是谷歌更广泛推动提升AI Agent能力的一部分。

Gemini 2.0系列是用新的强化学习技术构建的，这让模型有了更准确和更有针对性的输出反馈，同时提高了模型处理敏感提示的能力。

他还表示，团队利用自动化红队测试来评估系列模型的安全和安全风险。

其中包括间接提示注入等风险带来的风险——这是一种网络安全攻击，攻击者会将恶意指令隐藏在可能被AI系统检索的数据中。

综上总总，咱可以划出两个重点。

第一，“Gemini 2.0系列是用新的强化学习技术构建的”。

这条路是OpenAI o1第一个明确站出来表示自己在探索的，后来的o3、o3-mini，DeepSeek-R1等国内推理模型，都是追随这条路线，并以其为基础各有优化和发展。

Gemini 2.0家族中最先出场的Gemini 2.0 Flash Thinking已经是这样做的，这次CTO更是直接打明牌。

第二，Gemini 2.0 Flash-Lite，几乎被国内外所有媒体、网友视为DeepSeek-R1压力下的产物。

DeepSeek-R1低成本、高性能、强推理带来的滔天巨浪，不仅迫使OpenAI紧急发布了o3-mini、紧急加播让ChatGPT上新深度搜索；还让谷歌DeepMind也开始走上“AI大模型拼多多”的路线。

目前，DeepSeek-R1模型的输入和输出成本如下：

输入成本：每百万Tokens的输入成本为4元。
输出成本：每百万Tokens的输出成本为16元。

而Gemini 2.0 Flash-Lite的使用成本如下：

面对这种「神仙打架，凡人捡漏」的情况，我能说什么呢？

我只能说：

谷歌DeepMind CTO博文：https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/