量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎原创

51CTO技术栈

发布于 2024-7-25 12:52

1956浏览

0收藏

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

不管开源还是闭源模型，最近量化小模型的风头正在盖过大模型！

就在Llama3.1昨天正式发布以后，市面上一片兴奋：开源模型可以比肩GPT-4o，国内几乎所有供应商纷纷宣布接入Llama3.1的同时，我们也看到了圈内人士另一种声音：

“405B模型太大了”、“难以盈利、成本很高、速度一般。”

紧接着，素以小模型著称的Mistral AI也再一次用实力证明：Llama3.1真没必要那么“参数浪费”！

其今天刚刚发布的最新模型Mistral Large 2，参数只有123B，用不到三分之一的参数量性能就可以媲美Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。

这让“大模型顶流er”们哪里说理去！

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

1.AI大神、博主：模型太大不会被采用！量化才是正解！

事实真相就是这样。

AI大神贾扬清今天发推文表示：Llama 3.1 405B 确实是一款难以盈利的机型。

如果你用一台或半台机器去运行Llama3.1 405B，就会发现成本significant（巨高），速度却so-so（马马虎虎）。

那好，既然自己运行太高，我调用云厂商的接口还不行吗？

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

贾扬清又帮各位大模型爱好者们算了一笔账，目前大多数供应商调用405B的定价保持在30个tokens/s左右，才能覆盖住商业价值。对比来看，70B模型则更实惠多了，能达到150tokens/s以上。

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

不过贾扬清，表示即便405B的性价比不高，“但依然可以收支平衡，这取决于良好的优化和良好的工作量饱和度”，并同时提醒VC朋友们：“对于这个价格的纯API服务，不要期望像传统SaaS那样获得80%的利润率。”

这还没完，大神贾扬清最后下结论了：量化（模型）将成为标准！忘掉FP16吧，Int8/FP8才是出路！PS:Int8/FP8是指更小的神经张量的数值类型，代表着大模型所需的空间资源和算力资源。

并给出了一定的量化建议：量化需要谨慎。一个尺度足以处理整个张量的时代一去不复返了，而是需要进行channel/group的量化，以保证质量不会下降。

同时，贾扬清还预测405B会因为速度和价格的原因，采用和接受度会受到持续的影响。当然也Cue到了Mistral Large 2（123B），非常期待业内的测试效果。

NLP博主“刘聪NLP”也表示对于Llama3.1的成本有一种无力感：对于绝大多数开发者，Llama3.1的8B和70B版本的能力的提高才更有意义。

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

刘聪指出：405B即使效果很棒，但是有多少企业有资格玩一把呢？个人玩家就更不用说了，光模型大小就820G，别说有没有显卡，也许都没有820G磁盘空间下载都没资格，太难了！

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

奥特曼也开始注意到mini模型更受开发者欢迎！

24日，就在Llama3.1让市场兴奋的同时，奥特曼一条推特让mini掰回了一局。

“我们尽量不对任何一次评估感到太过兴奋，但很高兴看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o，而价格仅为其二十分之一。”

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

开放研究组织lmsys，昨天放出了一个Chatbot竞技场榜单更新，结果显示：GPT-4o mini一跃排行榜榜首，与GPT-4o并列第一，但价格更便宜，只有后者的1/20！而且各项性能都要由于早期版本。

这个榜单通过4000+用户的投票得到的，其中值得注意的是，在Hard Prompts和Coding Arena项中，GPT-4o mini依旧强悍。在数学任务上，GPT-4o mini也也跟turbo持平。

OpenAI创始成员 Karpathy在7月19日就曾发出一条推文表示：未来大模型的竞争态势是：先变小之后才能变大！

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

总结一下，量化模型的时代已经来了！至于原因，小编认为有两点：一、大模型侧训练所需的数据和算力已经出现了增长瓶颈，二、在盈利之前，绝大多数开发者难以负担大参数规模的成本。

最后，为各位奉上更小参数的Mistral Large 2下载链接，诸位不妨体验一把：

https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

本文转载自51CTO技术栈，作者：言征

标签

Llama3.1

量化

相关推荐

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

Crystalcxt • 1807浏览 • 0回复
最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

轻薄滴假象 • 1687浏览 • 0回复
最强大模型 Llama 3.1-405B 架构设计剖析

玄姐聊AGI • 2176浏览 • 0回复
解析Llama 3.1 与Meta 的 AI 战略，以及新的开放前沿模型生态系统

lintoms • 1659浏览 • 0回复
Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

NLP工作站 • 1692浏览 • 0回复
一大堆Llama3.1-Chinese正在袭来

NLP工作站 • 2079浏览 • 0回复
基于Llama 3.1和一台MacBook搭建商用级知识库

玄姐聊AGI • 2132浏览 • 0回复
AI界的新宠：揭秘Llama 3.1如何革新AI合成技术

ermulong • 1651浏览 • 0回复
微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

Aceryt • 1576浏览 • 0回复
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

鲁班模锤1 • 1710浏览 • 0回复
阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

Aceryt • 1512浏览 • 0回复
清华大学提出1-Bit FQT：将全量化训练极限推到极致,训练速度提升5倍！

AI论文解读 • 1637浏览 • 0回复
腾讯Hunyuan超越Llama 3，成为NLP领域新霸主

恰似惊鸿 • 1480浏览 • 0回复
从 Llama 1 到 3.1：Llama 模型架构演进详解

Baihai_IDP • 3156浏览 • 0回复
AI时代必备技能！AI大神吴恩达教你如何写出完美的prompt提示词

AI博物院 • 2280浏览 • 0回复
Dolphin 3.0 发布（Llama 3.1 + 3.2 + Qwen 2.5）：本地优先、可操纵的 AI 模型

Halo咯咯 • 1396浏览 • 0回复
Good Fire AI 针对 Llama 3.1 8B 和 Llama 3.3 70B 的开源稀疏自动编码器 (SAE)

Halo咯咯 • 1009浏览 • 0回复
Gemini 2.0：针对代理时代的新AI模型

Halo咯咯 • 1525浏览 • 0回复
阿里前高管贾扬清创业公司将被英伟达天价收购，对AI基建有何影响？

算家计算 • 348浏览 • 0回复

51CTO技术栈

LV.10

追踪IT新动向，赋能全球技术人员成长。

觉得TA不错？点个关注精彩不错过

372

帖子

5391

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎原创

1.AI大神、博主：模型太大不会被采用！量化才是正解！

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

目录

51CTO

51CTO博客

51CTO学堂

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎 原创

1.AI大神、博主：模型太大不会被采用！量化才是正解！

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

目录

量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎原创