鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

最强大模型统计网站，从此告别LLM选择恐惧症！原创

发布于 2024-7-24 13:18

2464浏览

0收藏

现在市面上的大模型越来越多，选择多了也可能成为一种幸福的烦恼。

如何选择一个好模型？

在机器学习中，通常会使用一些评估指标来选择模型，例如，用精度、召回率、F1等指标来评估一个分类模型的性能；使用IOU，AUC等指标评估目标检测和分割模型的性能。

同理，大模型也有评估指标。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

质量：大模型的指令跟随以及推理能力，例如，通用推理能力，或者具有某一方面的编码、数学推理能力。

性能：大模型的反应速度和记忆能力，例如，每秒输入、输出token数、上下文长度。

价格：大模型API调用计费，例如，每1M tokens多少刀。

我们当然希望能有一个模型各项指标都第一，但这是不现实的，就像分布式系统中CAP三个属性最多只能同时满足两个一样，大模型的评估指标之间，通常也存在相互制约关系，

例如，如果提升了上下文长度，那必然会导致反应延迟以及更多计算存储资源的消耗。

例如，如果想让其具备某一领域的特长，就可能会损失一定的通用推理能力。

例如，如果通过增加模型参数来增强模型推理能力，那么推理成本就会增加，就会上调API调用价格。

所以，在实践中，最常见的做法将所有大模型都摆到明面上，通过量化指标展示各自优缺点，然后让用户结合自己的需求来进行选择。

今天给大家介绍一个大模型统计网站。

https://artificialanalysis.ai/

它通过可视化方法将市面上常见的大模型的性能指标进行了量化分析、统筹比较。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

例如，昨天OpenAI进行了产品升级，GPT3.5成为历史，取而代之的是GPT-4o mini，官方数据显示GPT-4o mini具有超快的响应速度，同时兼顾推理能力和极低的API调用成本。

接下来，通过该网站的统计数据看看是不是这么回事。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

通过数据可见，其推理速度第一，API计费仅次于开源的llama 3，更重要的是并没有因此牺牲太多的推理能力。

如果想兼顾模型质量、推理速度和价格，就要将所有模型放到同一个坐标系下，坐标系下横轴是推理速度，纵轴是模型质量，点的大小代表价格。最理想的当然是靠近右上角且小点的模型。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

兼顾模型质量、上下文长度和价格。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

兼顾推理速度和价格，越靠近左上角的模型质量越好。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

不同大小输入token下的输出速度对比。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

该网站还对不同组织旗下的大模型进行了汇总。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

除了大语言模型，该网站还包括文本转语音、语音转文本、文生图等大模型的统计数据。

最强大模型统计网站，从此告别LLM选择恐惧症！-AI.x社区

本文转载自公众号人工智能大讲堂

原文链接：https://mp.weixin.qq.com/s/ELDZEIKDekfe-FETbqNP3w

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

最强大模型 Claude 3 完全解读

开发者阿橙 • 5494浏览 • 0回复
谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

Crystalcxt • 2489浏览 • 0回复
7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

轻薄滴假象 • 3908浏览 • 0回复
如何训练LLM自动在RAG和参数记忆之间进行选择

51CTO内容精选 • 2302浏览 • 0回复
Nemotron-4 340B 技术报告：全面解读当前最强大语言模型的诞生过程

大语言模型论文跟踪 • 3820浏览 • 0回复
最强大模型 Llama 3.1-405B 架构设计剖析

玄姐聊AGI • 2619浏览 • 0回复
将代码库或网站一键转成单个文件供给LLM，这些项目你应该知道！

Syrupup • 2081浏览 • 0回复
借助LLM实现模型选择和试验自动化

51CTO内容精选 • 1901浏览 • 0回复
使用结构化和非结构化数据增强大型语言模型(LLM)

Halo咯咯 • 1899浏览 • 0回复
2025年五大最佳AI网站建设平台

丢翅膀的鱼 • 4730浏览 • 0回复
选择哪个Batchsize对模型效果最好？

石映飞云 • 1400浏览 • 0回复
VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？

AI论文解读 • 1.9w浏览 • 0回复
Falcon 3：阿联酋技术创新研究所推出世界上最小、最强大的人工智能模型

Halo咯咯 • 1563浏览 • 0回复
从此告别收藏即吃灰！DeepSeek玩转飞书的终极攻略

Bx玩AI • 2027浏览 • 0回复
xAI 发布地表最强大模型Grok 3，同时宣布将开源Grok2

Syrupup • 1326浏览 • 0回复
DeepSeek 模型架构的特殊选择

amei2000go • 1161浏览 • 0回复
Agentic RAG 目前最强大的RAG实现方式

数字化助推器 • 1135浏览 • 0回复
PromptPro：AI提示词管理神器，从此告别杂乱无章！

Halo咯咯 • 1711浏览 • 0回复
TeapotLLM，让AI告别“胡言乱语”

Halo咯咯 • 985浏览 • 0回复

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

31

帖子

260

声望

0

粉丝

关注

最近发布

训练大模型时，显存都哪去了？ 2024-11-19 12:41:34发布
生产环境测试模型的四种方法 2024-11-15 11:22:05发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：从零实现大模型-GraphRAG，构建LLM中的关系数据库

下一篇：终于有人将机器学习中的重点做成了动画

社区精华内容

目录

如何选择一个好模型？

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载