鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！

发布于 2024-11-18 16:58

浏览

0收藏

Google DeepMind的最新版本 Gemini Exp 1114，在Chatbot Arena上取得了重要成就，凭借超过6000个社区投票，跃升至总榜第1，并在多个领域表现出色：

总排名：#3 -> #1
数学：#3 -> #1
难题解答：#4 -> #1
创意写作：#2 -> #1
视觉识别：#2 -> #1
编程：#5 -> #3

首先，我们要理解LLM Arena是什么。LLM Arena（或称聊天机器人竞技场）是一个评估LLM的平台，主要目标是促进社区驱动的LLM性能评估。它是最有声望的评估平台之一。

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

从总榜来看，谷歌新模型Gemini（Exp 1114）分数直涨40+，得分为1344，而 ChatGPT 4.0最新版本的得分是1340。谷歌旗下的模型这好像还是第一次有这样的成绩。

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

Gemini-Exp-1114 在数学竞技场中并列第一，性能匹敌 o1：

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

要知道，以前o1刚发布的时候，很惊艳的一点就是它可以在博士级别的科学问答环节上超越人类专家，还可以拿下奥数金牌。

网友：这会儿满血版的o1是真得出来了。。。

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

从总体胜率热图上来看，Gemini 对 4o-latest 的胜率为 50%，对 o1-preview 的胜率为 56%，对 Claude-3.5-Sonnet 的胜率为 62%。

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

除了总体排名，Gemini Exp 1114 在细分任务上获得6项第一：

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

可惜代码能力逊色了一点，从图中我们可以看到与 o1-mini/preview 还是有一定差距的。

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

目前，Gemini-Exp-1114 可以在谷歌AI Studio 对话体验

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

官方计划后续提供API，这个模型后续如果像Flash那样限速免费使用的话，我们还是可以和Cline、Continue这些编码助手配合使用的。

一些实践：

在一位博主的测试中，Gemini Exp 1114通过了所有的问题：

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

感觉还不错。

另一位网友：Gemini-exp-1114 的回答令人惊讶，早期的Flash模型通常会卡在 cat-age 问题上，而Gemini-exp-1114答对了这个问题：

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

不过 Gemini-exp-1114在被问到是谁创造和自己是谁时，竟然回答Anthropic 和 Claude。网友戏称，最让人感到直观的解释就是使用Claude生成的数据训练的。

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

然后我问了一下他一些视觉问题，相同的问题曾经写在这篇文章中你可以与之比较：

https://mp.weixin.qq.com/s/QuoiSxbik5tQXcQOHmrSXw

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

图中有多少水果，哪一种最小，哪一种酸性最强，它们在货架上的哪一排，哪一列？

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区图片

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

图片中心的石头被堆叠了几块？有没有不是图片场景的东西？

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

你能理解这个梗图的梗点在哪里吗?

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

最后这个模型，在视觉计数上似乎不太完美，图1、图2分别应该是30条船和10条船：

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！-AI.x社区

本文转载自 AI进修生，作者： Aitrainee

标签

已于2024-11-18 17:01:29修改

赞

收藏

回复

举报

回复

相关推荐

Claude3.5突然发布！GPT-4o不香了

Crystalcxt • 1189浏览 • 0回复
超越GPT-4o，Claude 3.5一夜封王！10倍编码速度逆天，全网最全实测来了

duhorse • 2126浏览 • 0回复
2024年以来，学术和产业界的那些SOTA多模态大模型的架构演进之路

angel • 860浏览 • 0回复
国内大模型厂商是如何看待突然的OpenAI o1？跟不跟是个问题！

Syrupup • 560浏览 • 0回复
阿里开源多模态视觉语言模型，多项超越GPT4o与Claude 3.5-Sonnet

angel • 2423浏览 • 0回复
OpenAI o1推理模型基础入门

51CTO内容精选 • 583浏览 • 0回复
使用 Claude 3.5 和 Python 构建 ReAct AI Agent

丢翅膀的鱼 • 474浏览 • 0回复
击败GPT-4o、仅次于o1！英伟达重磅开源超强大模型--Nemotron

Aceryt • 1380浏览 • 0回复
重磅开源Nemotron大模型：击败GPT-4o、仅次于o1！

51CTO技术栈 • 366浏览 • 0回复
Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！

51CTO技术栈 • 395浏览 • 0回复
Anthropic 升级版 Claude 3.5 Sonnet 模型，像人一样操控电脑？

穿越时空111 • 447浏览 • 0回复
Anthropic AI的Claude 3.5，让机器更懂你

Halo咯咯 • 424浏览 • 0回复
LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

Halo咯咯 • 433浏览 • 0回复
Claude 3.5 引领人工智能新时代的强大模型

丢翅膀的鱼 • 298浏览 • 0回复
Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫 • 282浏览 • 0回复
阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型

Aceryt • 1794浏览 • 0回复
Fireworks AI 发布 f1：在硬编码、聊天和数学基准方面超过 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 • 371浏览 • 0回复
小模型界o1来了：微软推出Phi-4，数学推理能力太逆天！14B模型击败GPT-4o！还印证了AI墙的一个重要推断

51CTO技术栈 • 255浏览 • 0回复
推进医疗人工智能：评估 OpenAI 的 o1-Preview 模型并优化推理策略

Halo咯咯 • 130浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

TEN Agent 一键让 Coze Bot 开口说话，这下AI助手终于能跟我聊天了 3天前发布
Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！ 2024-12-06 08:13:59发布

热门推荐

AI赋能教育：人工智能在教育中的八大应用实例 0回复

2024年人工智能进展：10大开创性研究亮点 0回复

大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型 0回复

明白了！机器学习四大范式：监督学习、无监督学习、半监督学习和自监督学习 0回复

Cursor账号过期了怎么办？一文教你如何永久使用Cursor技巧！ 0回复

上一篇： Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

下一篇： Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

社区精华内容

目录

Copyright © 2005-2024 51CTO.COM 京ICP证060544版权所有未经许可请勿转载