鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

速看！AI大模型性能最新排名原创

开发者阿橙

发布于 2024-7-19 07:35

浏览

0收藏

大家好，我是橙哥！今天我们来盘点一下主流AI大模型各方面性能的最新排名，分别从质量、速度、价格、对话能力、推理能力、编码、响应时间等能力来进行对比。

一、对话能力

Chatbot Arena是一个基于众包的大型模型评测基准。它为开发者和研究者提供了一个平台，在这里可以发布、测试和比较各种类型的聊天机器人，下面是根据Chatbot Arena的榜单排名。我们可以看出前三名是：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。

速看！AI大模型性能最新排名-AI.x社区

二、推理能力

MMLU（大规模多任务语言理解）是一项综合评估，MMLU 涵盖基础数学、美国历史、计算机科学和法律等 57 项任务。它需要模型来展示广泛的知识基础和解决问题的能力，下面是AI大模型根据MMLU的最新排名。我们可以看出前三名是GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus。

速看！AI大模型性能最新排名-AI.x社区

三、编程能力

HumanEval是一个用于评估代码生成模型性能的数据集，包含164个编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。下面是根据HumanEval排名的最新榜单。前三名是：Claude 3.5 Sonnet、GPT-4o、GPT-4。

速看！AI大模型性能最新排名-AI.x社区

四、上下文窗口

上下文窗口指的是输入和输出标记的最大组合数量。当涉及到 RAG（检索增强生成）和大模型的工作流时，更大的上下文窗口变得非常重要，这些工作流通常需要对大量数据进行推理和信息检索。我们可以看到前三名是：Gemini 1.5 Pro、Claude 3.5 Sonnet、Claude 3 Opus。

速看！AI大模型性能最新排名-AI.x社区

五、输入输出的价格

每百万tokens的美元价格，排名越靠前越便宜。在这里我们可以看到国内的DeepSeek大模型价格最低，价格最高的是GPT-4。

速看！AI大模型性能最新排名-AI.x社区

六、输出速度

模型生成token时每秒输出的token数量。在这里我们可以看到输出速度最快的是Llama 3（8B），输出最慢的是DeepSeek-Coder-V2。

速看！AI大模型性能最新排名-AI.x社区

七、随时间变化的输出速度

我们从图中可以看出Llama3 Instruct（8B）的输出速度一直保持较高水平，不过最近有点下降。

速看！AI大模型性能最新排名-AI.x社区

八、延迟

延迟的定义为发送 API 请求后，接收到第一个token所需的时间。在图中我们可以看到Mistral 7B的延迟最低，Claude 3 Opus的延迟最高。

速看！AI大模型性能最新排名-AI.x社区

九、随时间变化的延迟

从图中我们可以清晰地看出Claude 3 Opus的延迟一直较高，而Gemini 1.5 Pro的延迟有明显的改善。其他大模型的延迟都较低。

速看！AI大模型性能最新排名-AI.x社区

十、总响应时间

总响应时间为接收 100 个tokens所需的时间。根据延迟（接收第一个token的时间）和输出速度（每秒输出token数量）估算得出。从图中我们可以看出Llama3（8B）的总响应时间最短，而DeepSeek-Coder-V2的总响应时间最长。

速看！AI大模型性能最新排名-AI.x社区

大模型各方面的性能对我们开发AI产品的应用场景至关重要，对大模型各方面的性能进行测评可以帮助我们选择合适的选择合适的大模型和API提供商。无论是优化质量、提升速度、控制成本，还是需要特定的应用能力，这些大模型都为我们提供了丰富的选择。

本文转载自公众号AIGC开发者，作者：阿橙AIGC

原文链接：https://mp.weixin.qq.com/s/d0DNuxivD4YZSOSYEufVrA

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

调研120+模型！腾讯AI Lab联合京都大学发布多模态大语言模型最新综述

laokugonggao • 3306浏览 • 0回复
国内AI大模型整理，排名不分先后

新手站长 • 5638浏览 • 0回复
【LLM】从软件工程视角看大语言模型测试

sbf_2000 • 2699浏览 • 0回复
最新研究：大语言模型使用Json格式输出会降低模型性能吗？

大语言模型论文跟踪 • 2859浏览 • 0回复
| 技术速览

Baihai_IDP • 2186浏览 • 0回复
一篇大模型Agent最新综述

探索AGI • 2579浏览 • 0回复
从AIGC看大模型供应商

AI探索时代 • 1715浏览 • 0回复
一篇大模型RAG最新综述

NLP前沿1 • 2241浏览 • 0回复
浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG

大模型自然语言处理 • 1585浏览 • 0回复
浅看大模型用于Text2SQL的综述

大模型自然语言处理 • 2384浏览 • 0回复
AI赋能教育：人工智能在教育中的八大应用实例

风云2002_1 • 9021浏览 • 0回复
从大模型数据，看大模型的前瞻应用场景在哪里？

AIGC新知 • 1252浏览 • 0回复
一篇大模型GraphRAG最新综述

探索AGI • 1880浏览 • 0回复
中科大揭秘微调大模型的秘诀：如何精准选择数据提升AI性能

AI论文解读 • 2254浏览 • 0回复
低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！

玄姐聊AGI • 3590浏览 • 0回复
DeepSeek-R1技术大揭秘：论文核心原理拆解与模型性能突破关键

arnoldzhw • 2133浏览 • 0回复
从大模型性能优化到DeepSeek部署

卓胜微wjp • 3478浏览 • 0回复
登顶全球AI应用第2名，豆包排名第10

Aceryt • 1381浏览 • 0回复
别让大模型想太多了，过度思考会影响性能

Aceryt • 561浏览 • 0回复

开发者阿橙

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

用Python打造加密货币算法交易机器人 2024-09-13 12:54:05发布
用 Dify 和 Notion 打造轻量级金融数据库 2024-09-04 14:05:24发布

热门推荐

暴论：2025年，程序员必学技能就是 MCP 1回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

上一篇：神器Pandas AI: 一款智能做数据分析的工具！

下一篇： 3分钟零代码打造自己的量化选股机器人

社区精华内容

目录

一、对话能力
二、推理能力
三、编程能力
四、上下文窗口
五、输入输出的价格
六、输出速度
七、随时间变化的输出速度
八、延迟
九、随时间变化的延迟
十、总响应时间

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载