力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

人工智能 新闻
劈柴哥亲自官宣Gemini 2.0家族更新,分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。

终于,谷歌DeepMind坐不住了,出手就是超越DeepSeek-R1

劈柴哥亲自官宣Gemini 2.0家族更新,分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。

同时,稳居大模型竞技场第1名的推理模型Gemini 2.0 Flash Thinking,已在Gemini App中推出。

至此,Gemini 2.0家族所有模型,全部跻身大模型竞技场前10

且Gemini 2.0 Pro超过了DeepSeek-R1

谷歌首席科学家Jeff Dean表示:“与1.5系列模型相比,2.0系列的每一款通常都比1.5系列的同型号更好”。

而此次上新中,尤其值得关注的模型,有2个。

一个是Gemini 2.0 Pro,谷歌迄今为止在编码和复杂指令任务中表现最好的模型,200万tokens上下文窗口,支持调用谷歌搜索和代码执行等工具。

一个是Gemini 2.0 Flash-Lite,谷歌目前为止性价比最高的模型,针对大规模文本输出用例进行了成本优化(让我们谢谢DeepSeek),还杀进了竞技场总榜前十。

模型使用成本也一降再降,甚至被有的网友调侃,这些模型年纪轻轻就出来打工,还基本免费打工,为爱发电那种

网友一边直呼鹅妹子嘤,一边玩儿得很开心。

上来就是最近o3-mini和DeepSeek-R1激烈对垒过的六边形内晃小球。

Prompt:编写一个脚本,显示一个球在旋转的六边形内部弹跳。球应该受到重力和摩擦的影响,并且必须真实地弹跳 off 转动的墙壁。使用 p5.js 实现。

你将得到:

而此前o3-mini和DeepSeek-R1的表现分别如下:

高下如何,大家自己评估。

现在起,Gemini 2.0所有人可用

展开来说,此次发布的Gemini 2.0家族三款模型,分别是:

  • Gemini 2.0 Flash更新版:通用首选
  • Gemini 2.0 Pro实验版:谷歌最强
  • Gemini 2.0 Flash-Lite:性价比首选

所有这些模型在发布时都将支持多模态输入,并生成文本输出

加上此前就亮相了的Gemini 2.0 Flash Thinking,家族全家福现在如下。

在通用、代码、推理、多模态、数学、长文本、图像、音视频等方面,家族3名新成员的成绩如下。

不愧是谷歌自己的新王者,Gemini 2.0 Pro在13项评测中,拿下11个第一。

同时,让人眼前一亮的是,Gemini 2.0 Flash-Lite在Factuality的FACTS Grounding这一项,以84.6%的成绩勇夺桂冠,力压Gemini 2.0 Pro。

下面,我们来分别仔细看看新出现的3名家族成员的具体情况。

谷歌最强:Gemini 2.0 Pro实验版

Gemini 2.0 Pro是谷歌DeepMind迄今为止最强的模型,不过官方暂且只放出了实验版

它具有最强的编码性能和处理复杂提示的能力,对世界知识的理解和推理能力也是谷歌最强。

此外,Gemini 2.0 Pro实验版配备了谷歌最大的上下文窗口,即200万tokens

这使得它能够全面分析和理解大量信息,并具备调用如谷歌搜索和代码执行等工具的能力。

现在,作为实验性模型,Gemini 2.0 Pro已经在Google AI Studio和Vertex AI提供给开发者使用。

如果你是Gemini Advanced的用户,可以在PC端和移动设备端的模型下拉菜单中选中它,进行使用。

最为通用:新版Gemini 2.0 Flash

去年2024年谷歌I/O大会上,Gemini 2.0 Flash实验版首次亮相。

现在,Gemini 2.0 Flash已经集成到谷歌的AI产品中,人人可用。

谷歌DeepMind的CTO,同时代表了Gemini团队的Koray Kavukcuoglu在博客中表示,Gemini 2.0 Flash提供了全面的功能,适合大规模处理高容量、高频率任务。

并且具备100万tokens长文本能力,支持对海量信息进行多模态推理。

目前,Gemini 2.0 Flash支持多模态输入和文本单模态输出,而图像生成和文本转语音功能已经在路上了,“未来几个月,将提供Gemini 2.0 Flash的多模态Live API”。

当前用法如下:

  • 普通用户:Gemini App中试玩
  • 开发者:Google AI Studio和Vertex AI中调用API

性价比首选:Gemini 2.0 Flash-Lite

基于“希望在保持1.5 Flash成本和速度的同时,继续提高模型质量”,谷歌DeepMind推出了Gemini 2.0 Flash-Lite。

这个模型速度和成本与Gemini 1.5 Flash持平,但大多数基准测试中,模型能力优于1.5 Flash

虽然是Lite版本,但其长文本能力并没有打折——和2.0 Flash一样,它具备100万tokens的上下文窗口,同时支持多模态输入。

而且巨便宜。

便宜到什么地步呢?给大家一个更能感知的例子:

如果让Gemini 2.0 Flash-Lite为4万张左右的不同照片,各自生成一句描述简介,按Google AI Studio定价,这个任务花费的总成本不超过1美元(约7.2751元)

综上,谷歌用一张图明确表现了3名Gemini 2.0家族新成员的现有能力:

来自DeepSeek的无形压力?

模型一登场,网友们已经玩飞了!

身先士卒的Jeff Dean,第一个奉上他用Gemini 2.0 Pro编程做出的益智休闲类Boggle游戏(他的最爱)

有人问生成代码并解释需要多长时间,Jeff还很直接地回应了网友,表示:答案是18.9秒。

他激情解说,只需一个相对简单的提示词,Gemini 2.0 Pro就能写出完整的代码,其中包括所有正确的数据结构和搜索算法;它还能找到Boggle棋盘上的所有有效单词。

作为一名计算机科学家,我也很高兴它在第一个前缀树中就正确地使用了数据结构。

紧随其后,还有网友搞了个狂野版贪吃蛇。“Google Gemini 2.0一次性生成,带编码器模式!创建一个自己爬行扭起来的贪吃蛇游戏,其中100条蛇竞争狂舞。”虽然他没有在评论区回复到底是用的是Gemini 2.0家族的哪个模型,但效果还是不错滴!

另外值得重视的一个小点——

谷歌DeepMind的CTO在博客中写道,这些发布是谷歌更广泛推动提升AI Agent能力的一部分

Gemini 2.0系列是用新的强化学习技术构建的,这让模型有了更准确和更有针对性的输出反馈,同时提高了模型处理敏感提示的能力。

他还表示,团队利用自动化红队测试来评估系列模型的安全和安全风险

其中包括间接提示注入等风险带来的风险——这是一种网络安全攻击,攻击者会将恶意指令隐藏在可能被AI系统检索的数据中。

综上总总,咱可以划出两个重点。

第一,“Gemini 2.0系列是用新的强化学习技术构建的”。

这条路是OpenAI o1第一个明确站出来表示自己在探索的,后来的o3、o3-mini,DeepSeek-R1等国内推理模型,都是追随这条路线,并以其为基础各有优化和发展。

Gemini 2.0家族中最先出场的Gemini 2.0 Flash Thinking已经是这样做的,这次CTO更是直接打明牌。

第二,Gemini 2.0 Flash-Lite,几乎被国内外所有媒体、网友视为DeepSeek-R1压力下的产物。

DeepSeek-R1低成本、高性能、强推理带来的滔天巨浪,不仅迫使OpenAI紧急发布了o3-mini、紧急加播让ChatGPT上新深度搜索;还让谷歌DeepMind也开始走上“AI大模型拼多多”的路线。

目前,DeepSeek-R1模型的输入和输出成本如下:

  • 输入成本:每百万Tokens的输入成本为4元。
  • 输出成本:每百万Tokens的输出成本为16元。

而Gemini 2.0 Flash-Lite的使用成本如下:

面对这种「神仙打架,凡人捡漏」的情况,我能说什么呢?

我只能说:

谷歌DeepMind CTO博文:https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

责任编辑:张燕妮 来源: 量子位
相关推荐

2024-05-31 14:23:15

2024-10-16 15:07:57

2025-01-26 08:00:00

模型AI数据

2012-05-31 14:20:14

2025-02-03 14:17:27

2025-02-06 10:18:45

2025-01-24 15:03:27

2024-04-22 08:40:00

LLM模型开源

2025-02-06 09:52:12

2024-06-20 14:04:17

2024-08-02 13:11:39

2013-09-12 11:17:02

2024-07-24 12:40:44

2024-06-24 18:15:22

2024-12-31 12:35:46

2024-08-08 13:03:46

2024-05-20 15:25:47

2022-04-12 18:35:03

元宇宙

2014-10-31 15:43:02

华为智慧

2024-04-12 14:15:32

GPT-4AI机器人
点赞
收藏

51CTO技术栈公众号