谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!

发布于 2025-2-7 14:38
浏览
0收藏

Hi,这里是Aitrainee,欢迎阅读本期新文章。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

Gemini 2.0的故事,正在加速展开。

12月的Flash实验版,为开发者带来低延迟、高性能的工作模型。

今年初,2.0 Flash Thinking Experimental在Google AI Studio更新,通过结合Flash的速度和增强的推理能力,进一步提升性能。

上周,更新版2.0 Flash已在Gemini桌面和移动应用全面上线。

今天,三个新成员同时亮相:迄今为止在编码和复杂提示方面表现最佳的模型Gemini 2.0 Pro实验版,性价比之选2.0 Flash-Lite,以及思维增强版2.0 Flash Thinking。

Gemini 2.0 Pro 在所有类别中排名第一。Gemini-2.0-Flash 在编码、数学和难题中排名前三。Flash-lite 在各个类别中排名前十。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

三款模型能力对比图表:

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

所有模型支持多模态输入,输出文本。更多模态能力也在路上。

编码竞技场中的模型强度图

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

胜率热图

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

Google 对待免费用户比 OpenAI 对待 Plus 用户更好。在 AI Studio 中免费访问 Gemini 2.0 Pro Experimental:

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

▲ 免费开玩

​https://aistudio.google.com/​

Deepseek服务总是显示错误等待。。。记得最开始的推理免费模型也是在谷歌aistudio中使用的2.0 Flash Thinking。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

此外,在Gemini 网页版中:https://gemini.google.com/app。还有一个联网的推理模型(所以为什么要分开。。)

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

Google发布Gemini 2.0 Pro实验版,官方基准测试提升比较亮眼。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

它具有最强大的编码性能和处理复杂提示的能力,比谷歌迄今为止发布的任何模型都具有更好的理解和推理世界知识的能力。

它具有最大的上下文窗口(200k,我长上下文是Gemini 模型比较大的一个优势),这使它能够全面分析和理解大量信息,并且能够调用 Google 搜索和代码执行等工具。

在MATH测试中达到91.8%,比1.5版本提升约5个百分点。GPQA推理能力达到64.7%,SimpleQA世界知识测试更是达到44.3%。

最引人注目的是编程能力。在LiveCodeBench测试中达到36.0%,Bird-SQL转换准确率突破59.3%。配合200万token的超大上下文窗口,足以应对最复杂的代码分析任务。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

可以去cursor中试用了。

多语言理解能力也令人印象深刻,Global MMLU测试达86.5%。图像理解MMMU达72.7%,视频分析能力达71.9%。


Gemini 2.0 Flash-Lite,一个有趣的平衡点。

保持了1.5 Flash的速度和成本,却带来了更好的性能。10‍0万token的上下文窗口,让它能处理更多信息。

最实用的是它的性价比:4万张照片的标题生成,成本不到1美元。这让AI落地更接地气。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

博主Shrivastava提到:Gemini 2.0 Pro 编码太疯狂了!

提示:使用 Three.js 创建太阳系模拟。添加时间刻度、焦点下拉菜单、显示轨道和显示标签。将所有内容创建在一个文件中,以便我可以将其粘贴到在线编辑器中并查看输出。

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

此外,还有网友提到Gemini 2.0 Flash在他自己的一个悖论测试中输出较好的结果:

谷歌三款新模型齐发,Gemini-2.0-Pro免费、跑分超o1登顶第一,适合编码、处理复杂提示!-AI.x社区

最后,google提到,Gemini 2.0的安全性,不只是补丁,是设计之初就考虑的核心。

让模型学会自我批评。用强化学习让Gemini评估自己的回答,提供更精准的反馈。这让它面对敏感话题时更稳健。

自动化红队测试很有意思。专门防范间接提示词注入,就像给AI装了个免疫系统,防止有人在数据中藏入恶意指令。

本文转载自​AI进修生​,作者: Aitrainee ​​


收藏
回复
举报
回复
相关推荐