鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！

发布于 2025-2-7 14:38

浏览

0收藏

Hi，这里是Aitrainee，欢迎阅读本期新文章。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

Gemini 2.0的故事，正在加速展开。

12月的Flash实验版，为开发者带来低延迟、高性能的工作模型。

今年初，2.0 Flash Thinking Experimental在Google AI Studio更新，通过结合Flash的速度和增强的推理能力，进一步提升性能。

上周，更新版2.0 Flash已在Gemini桌面和移动应用全面上线。

今天，三个新成员同时亮相：迄今为止在编码和复杂提示方面表现最佳的模型Gemini 2.0 Pro实验版，性价比之选2.0 Flash-Lite，以及思维增强版2.0 Flash Thinking。

Gemini 2.0 Pro 在所有类别中排名第一。Gemini-2.0-Flash 在编码、数学和难题中排名前三。Flash-lite 在各个类别中排名前十。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

三款模型能力对比图表：

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

所有模型支持多模态输入，输出文本。更多模态能力也在路上。

编码竞技场中的模型强度图

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

胜率热图

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

Google 对待免费用户比 OpenAI 对待 Plus 用户更好。在 AI Studio 中免费访问 Gemini 2.0 Pro Experimental：

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

▲ 免费开玩

https://aistudio.google.com/

Deepseek服务总是显示错误等待。。。记得最开始的推理免费模型也是在谷歌aistudio中使用的2.0 Flash Thinking。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

此外，在Gemini 网页版中：https://gemini.google.com/app。还有一个联网的推理模型（所以为什么要分开。。)

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

Google发布Gemini 2.0 Pro实验版，官方基准测试提升比较亮眼。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

它具有最强大的编码性能和处理复杂提示的能力，比谷歌迄今为止发布的任何模型都具有更好的理解和推理世界知识的能力。

它具有最大的上下文窗口（200k，我长上下文是Gemini 模型比较大的一个优势），这使它能够全面分析和理解大量信息，并且能够调用 Google 搜索和代码执行等工具。

在MATH测试中达到91.8%，比1.5版本提升约5个百分点。GPQA推理能力达到64.7%，SimpleQA世界知识测试更是达到44.3%。

最引人注目的是编程能力。在LiveCodeBench测试中达到36.0%，Bird-SQL转换准确率突破59.3%。配合200万token的超大上下文窗口，足以应对最复杂的代码分析任务。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

可以去cursor中试用了。

多语言理解能力也令人印象深刻，Global MMLU测试达86.5%。图像理解MMMU达72.7%，视频分析能力达71.9%。

Gemini 2.0 Flash-Lite，一个有趣的平衡点。

保持了1.5 Flash的速度和成本，却带来了更好的性能。10‍0万token的上下文窗口，让它能处理更多信息。

最实用的是它的性价比：4万张照片的标题生成，成本不到1美元。这让AI落地更接地气。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

博主Shrivastava提到：Gemini 2.0 Pro 编码太疯狂了！

提示：使用 Three.js 创建太阳系模拟。添加时间刻度、焦点下拉菜单、显示轨道和显示标签。将所有内容创建在一个文件中，以便我可以将其粘贴到在线编辑器中并查看输出。

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

此外，还有网友提到Gemini 2.0 Flash在他自己的一个悖论测试中输出较好的结果：

谷歌三款新模型齐发，Gemini-2.0-Pro免费、跑分超o1登顶第一，适合编码、处理复杂提示！-AI.x社区

最后，google提到，Gemini 2.0的安全性，不只是补丁，是设计之初就考虑的核心。

让模型学会自我批评。用强化学习让Gemini评估自己的回答，提供更精准的反馈。这让它面对敏感话题时更稳健。

自动化红队测试很有意思。专门防范间接提示词注入，就像给AI装了个免疫系统，防止有人在数据中藏入恶意指令。

本文转载自AI进修生，作者： Aitrainee

标签

赞

收藏

回复

举报

回复

相关推荐

谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

Aceryt • 3155浏览 • 0回复
谷歌发布Veo：文生超1分钟、1080P视频，媲美Sora

Aceryt • 3013浏览 • 0回复
六款超火的AI绘图软件推荐！总有一款AI适合你！

行走的小非 • 5252浏览 • 0回复
登顶新SOTA！阿里新开源语音模型Qwen2-Audio ，实测优于 Gemini-1.5-pro，网友：离GPT-4o只差一步

51CTO技术栈 • 1821浏览 • 0回复
OpenAI 发布新模型 o1，能够推理复杂任务，在科学、编程和数学等领域更牛

AI洞察Insight • 1242浏览 • 0回复
OpenAI发布新模型：o1系列模型，更像理科生的模型

大语言模型论文跟踪 • 2778浏览 • 0回复
OpenAI o1引发的思维链思考：思维链提示启发大模型推理

angel • 2185浏览 • 0回复
OpenAI o1：用内部思维链进行复杂推理

shizhi02 • 1448浏览 • 0回复
Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！

51CTO技术栈 • 1293浏览 • 0回复
DeepSeek首发国产类o1模型！人人可以免费使用！

51CTO技术栈 • 2514浏览 • 0回复
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费

51CTO技术栈 • 1544浏览 • 0回复
满血o1被证明太心机了！登顶最「坏」AI！复制权重，干掉威胁后，AI拒绝招供：也许我应该装作是新模型……

51CTO技术栈 • 966浏览 • 0回复
OpenAI o1 模型到来后，谈谈提示词工程的未来

Baihai_IDP • 1072浏览 • 0回复
基于谷歌Gemini多模态模型实现PDF文档自动化处理

51CTO内容精选 • 1171浏览 • 0回复
谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 • 4515浏览 • 0回复
Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

51CTO技术栈 • 773浏览 • 0回复
DeepSeek-R1 + RooCline：极佳的强化学习AI编码代理！对标o1、蒸馏小模型本地部署

老蛀虫 • 2090浏览 • 0回复
Gemini 2.0：针对代理时代的新AI模型

Halo咯咯 • 1196浏览 • 0回复
Google Gemini Code Assist：一个免费的AI编码助手

Halo咯咯 • 611浏览 • 0回复

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

65

帖子

609

声望

4

粉丝

关注

最近发布

Mistral杀回来了！Small 3.1开源发布，性能完胜Gemma 3，RTX 4090就能跑 21h前发布
接入 Deepseek 能让百度文库焕发第二春吗？ 2025-03-06 09:35:51发布

热门推荐

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

DeepSeek R1 全系列模型部署指南 0回复

解锁Transformer核心！一文吃透自注意力机制 0回复

上一篇： DeepSeek-R1 + RooCline：极佳的强化学习AI编码代理！对标o1、蒸馏小模型本地部署

下一篇： Windsurf Wave3：MCP协议让AI直接读取控制台错误，自动化网页调试不用复制粘贴了！Tab智能跳转、Turbo模式

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载