对标DeepSeek,Gemini 2.0轻量模型开卷“极致性价比”!谷歌守住多模态阵地应用们都要开始做推理了! 原创
编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
DeepSeek的火热,让Google坐不住了!
深夜,Google推出了Gemini 2.0全家桶,一口气推出了三个模型型号:Gemini 2.0 Flash、Gemini 2.0 Flash-LiteGemini 2.0 Pro。
图片
看技术报告,2.0系列的三个模型在通用、代码、推理、事实性、多语言等方面指标如下。比起此前Gemini 1.5系列着实有了多维度的进化,但明显没有性能的断层式飞跃。
图片
再来看最近AI圈关注的重中之重——推理。谷歌也在Gemini 2.0的技术报告里强调了一把,Gemini 2.0 Flash Thinking全面上线了!
图片
外媒TechCruch,在报道中明说了谷歌不甘自家推理模型受冷落,想借2.0更新的档口加一把火的意思:“Google 和 DeepSeek 都在去年 12 月发布了 AI 推理模型,但 DeepSeek 的 R1 模型受到了更多关注。如今,Google 可能希望通过广受欢迎的 Gemini 应用,让更多用户接触到其 Gemini 2.0 Flash Thinking 模型。”
其中最大的亮点,就是谷歌直接把推理放到了YouTube、Maps 和 Search里!也就是说,你可以直接让Gemini 2.0 Flash Thinking帮你推理下油管近期的爆款视频元素。
这点还是很让人振奋的,感觉谷歌终于聪明了一把,应用们集体做推理的时代已经不远了!
还有一个与DeepSeek相关的趣事,在AI界“拼多多”的影响下,谷歌也开始玩极致性价比了。
带队Gemini 2.0的大佬Logan都出来打了个广告,称Gemini 2.0 Flash是最“划算”的大模型了,抓紧用吧!
图片
Logan说得不错,尤其是轻量的Gemini 2.0 Flash-Lite模型,其定价更低:
输入:$0.075/百万 tokens
输出:$0.30/百万 tokens
相比之下,市场上的其他 LLM:
OpenAI 4o-mini:$0.15(输入) / $0.6(输出)
Anthropic Claude:$0.8(输入) / $4(输出)
DeepSeek V3:$0.14(输入) / $0.28(输出)
看来AI圈的又一波降价促销即将到来,不过,Gemini 2.0 与 DeepSeek-R1、OpenAI o3的推理还是有相当大的区别,就像是把“苹果与橙子”放在一起比较。
1.多模态仍是谷歌核心优势,多应用接入未来可期
从这张时间表来看,Google 的核心优势仍然在多模态能力上。
图片
此前,Google DeepMind 的 CTO Koray Kavukcuoglu 在公司博客中写道:“这些模型在发布时将支持多模态输入(文本输出),并将在未来几个月内开放更多模态的全面使用。”
在谷歌生态里,多模态能力发挥的空间很大。推特博主@Paul Couvert说,作为首个能够访问 YouTube 的推理模型,AI已经能帮你量身写作短视频脚本了,tips 如下:
- 搜索与您的主题相关的视频
- 让 Gemini 对视频进行思考
- 您将在 10 秒内得到一个量身定制的结果!
而在map里,Gemini 2.0的支持让地图化身“地球探索器”,可以通过推理为用户提供更多有趣的地方。
当用户说:带我去一个自然风光优美、绿意盎然的地方。
AI回复道:去也门的索科特拉群岛怎么样?这里独特得仿佛踏上另一个星球。由于长期的与世隔绝,这里孕育出了奇特而美丽的植物,如龙血树和多肉瓶树。
图片
相较而言,DeepSeek 和 OpenAI 等竞争对手专注在单一模态的大模型中,DeepSeek-R1 和 OpenAI 的 o3-mini 仍无法直接处理多模态输入(即无法解析图片、文件上传或附件)。虽然 DeepSeek-R1 在其网站和移动端支持图片上传,但它仅使用 光学字符识别(OCR) 来提取图片中的文本内容,而不是真正理解或分析图片的其他信息。
不过,谷歌能否将应用中的AI推理做得真正实用,还需要时间的检验。
2.Gemini 2.0 Pro 秀肌肉:2百万 token 超长上下文、最强大的编码模型
Google 坚持走长上下文路线。Gemini 2.0 Pro 的实验版本,更是达到了2百万 tokens之大。
Google DeepMind 将其描述为最强大的编码模型,可处理复杂提示词,其特性如下:
- 2百万 tokens 上下文窗口(比 Flash 和 Flash-Lite 翻倍);
- 改进的推理能力;
- 集成 Google Search 和代码执行能力。
DeepMind首席科学家盛赞说,“它能写出完整的代码,包括所有正确的数据结构和搜索算法,根据一个相对简单的提示,在 Boggle 棋盘上找到所有有效的单词,这真是令人匪夷所思!”
图片
此外, Gemini 2.0 Pro的编辑功能也大受好评,网友直接让AI使用 Three.js,手搓了一个太阳系模拟。
图片
对标DeepSeek,Gemini 2.0轻量模型开卷“极致性价比”!谷歌守住多模态阵地,油管、地图应用们都要开始做推理了!
观看更多转载,对标DeepSeek,Gemini 2.0轻量模型开卷“极致性价比”!谷歌守住多模态阵地,油管、地图应用们都要开始做推理了!51CTO技术栈已关注分享点赞在看已同步到看一看写下你的评论 视频详情
3.写在最后
这边,Gemini 2.0 正在迎来高光时刻。
然而, OpenAI 却突然放出大招,谷歌一夜醒来发现被偷家了。
ChatGPT正式开放了搜索功能,免注册免费用,网友在评论中惊呼:“谷歌一下”可能要变成“AI 一下”了。
图片
有了亮眼的Gemini 2.0,谷歌仍然不能喘一口气:2025 年的 AI 之战注定不会轻松。连 CEO 桑达尔·皮查伊都坦言:“今年将是一场硬仗。”
参考链接:
1.https://developers.googleblog.com/en/gemini-2-family-expands/?linkId=12807127
2.https://techcrunch.com/2025/02/05/google-launches-new-ai-models-and-brings-thinking-to-gemini/
本文转载自51CTO技术栈,作者:伊风