量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎

原创 精选
人工智能
量化模型的时代已经来了!至于原因,小编认为有两点:一、大模型侧训练所需的数据和算力已经出现了增长瓶颈,二、在盈利之前,绝大多数开发者难以负担大参数规模的成本。

编辑 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

不管开源还是闭源模型,最近量化小模型的风头正在盖过大模型!

就在Llama3.1昨天正式发布以后,市面上一片兴奋:开源模型可以比肩GPT-4o,国内几乎所有供应商纷纷宣布接入Llama3.1的同时,我们也看到了圈内人士另一种声音:

“405B模型太大了”、“难以盈利、成本很高、速度一般。”

紧接着,素以小模型著称的Mistral AI也再一次用实力证明:Llama3.1真没必要那么“参数浪费”!

其今天刚刚发布的最新模型Mistral Large 2,参数只有123B,用不到三分之一的参数量性能就可以媲美Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。

这让“大模型顶流er”们哪里说理去!

图片图片

1.AI大神、博主:模型太大不会被采用!量化才是正解!

事实真相就是这样。

AI大神贾扬清今天发推文表示:Llama 3.1 405B 确实是一款难以盈利的机型。

如果你用一台或半台机器去运行Llama3.1 405B,就会发现成本significant(巨高),速度却so-so(马马虎虎)。

那好,既然自己运行太高,我调用云厂商的接口还不行吗?

图片图片

贾扬清又帮各位大模型爱好者们算了一笔账,目前大多数供应商调用405B的定价保持在30个tokens/s左右,才能覆盖住商业价值。对比来看,70B模型则更实惠多了,能达到150tokens/s以上。

图片图片

不过贾扬清,表示即便405B的性价比不高,“但依然可以收支平衡,这取决于良好的优化和良好的工作量饱和度”,并同时提醒VC朋友们:“对于这个价格的纯API服务,不要期望像传统SaaS那样获得80%的利润率。”

这还没完,大神贾扬清最后下结论了:量化(模型)将成为标准! 忘掉FP16吧,Int8/FP8才是出路!PS:Int8/FP8是指更小的神经张量的数值类型,代表着大模型所需的空间资源和算力资源。

并给出了一定的量化建议:量化需要谨慎。一个尺度足以处理整个张量的时代一去不复返了,而是需要进行channel/group的量化,以保证质量不会下降。

同时,贾扬清还预测405B会因为速度和价格的原因,采用和接受度会受到持续的影响。当然也Cue到了Mistral Large 2(123B),非常期待业内的测试效果。

NLP博主“刘聪NLP”也表示对于Llama3.1的成本有一种无力感:对于绝大多数开发者,Llama3.1的8B和70B版本的能力的提高才更有意义。

图片图片

刘聪指出:405B即使效果很棒,但是有多少企业有资格玩一把呢?个人玩家就更不用说了,光模型大小就820G,别说有没有显卡,也许都没有820G磁盘空间下载都没资格,太难了!

图片

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

奥特曼也开始注意到mini模型更受开发者欢迎!

24日,就在Llama3.1让市场兴奋的同时,奥特曼一条推特让mini掰回了一局。

“我们尽量不对任何一次评估感到太过兴奋,但很高兴看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o,而价格仅为其二十分之一。”

图片图片

开放研究组织lmsys,昨天放出了一个Chatbot竞技场榜单更新,结果显示:GPT-4o mini一跃排行榜榜首,与GPT-4o并列第一,但价格更便宜,只有后者的1/20!而且各项性能都要由于早期版本。

这个榜单通过4000+用户的投票得到的,其中值得注意的是,在Hard Prompts和Coding Arena项中,GPT-4o mini依旧强悍。在数学任务上,GPT-4o mini也也跟turbo持平。

OpenAI创始成员 Karpathy在7月19日就曾发出一条推文表示:未来大模型的竞争态势是:先变小之后才能变大!

图片图片

总结一下,量化模型的时代已经来了!至于原因,小编认为有两点:一、大模型侧训练所需的数据和算力已经出现了增长瓶颈,二、在盈利之前,绝大多数开发者难以负担大参数规模的成本。

最后,为各位奉上更小参数的Mistral Large 2下载链接,诸位不妨体验一把:

https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/


责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2024-01-26 13:18:00

AI训练

2024-08-27 14:20:00

2024-07-19 09:59:31

2024-08-12 09:47:00

模型数据

2021-05-20 16:43:25

阿里云大数据人工智能

2023-03-22 13:58:59

离职阿里巴巴

2021-05-12 10:33:42

阿里人工智能天池平台

2021-05-29 16:30:58

阿里云贾扬清大数据

2020-02-20 17:24:12

人工智能深度学习技术

2009-02-26 16:56:07

虚拟化ITVMware

2024-01-24 13:11:00

AI模型

2019-09-27 10:30:28

技术研发开源

2010-01-06 14:08:45

堆叠交换机

2024-04-07 07:22:00

模型训练

2019-03-04 10:03:14

开发者技能C++

2024-07-24 16:54:45

2021-10-25 15:29:56

GitHub阿里开源

2024-07-29 07:46:00

英伟达模型

2009-01-07 18:14:40

2024-07-29 09:20:00

AI模型
点赞
收藏

51CTO技术栈公众号