量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎 原创

发布于 2024-7-25 12:52
浏览
0收藏

编辑 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

不管开源还是闭源模型,最近量化小模型的风头正在盖过大模型!

就在Llama3.1昨天正式发布以后,市面上一片兴奋:开源模型可以比肩GPT-4o,国内几乎所有供应商纷纷宣布接入Llama3.1的同时,我们也看到了圈内人士另一种声音:

“405B模型太大了”、“难以盈利、成本很高、速度一般。”

紧接着,素以小模型著称的Mistral AI也再一次用实力证明:Llama3.1真没必要那么“参数浪费”!

其今天刚刚发布的最新模型Mistral Large 2,参数只有123B,用不到三分之一的参数量性能就可以媲美Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。

这让“大模型顶流er”们哪里说理去!

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

1.AI大神、博主:模型太大不会被采用!量化才是正解!

事实真相就是这样。

AI大神贾扬清今天发推文表示:Llama 3.1 405B 确实是一款难以盈利的机型。

如果你用一台或半台机器去运行Llama3.1 405B,就会发现成本significant(巨高),速度却so-so(马马虎虎)。

那好,既然自己运行太高,我调用云厂商的接口还不行吗?

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

贾扬清又帮各位大模型爱好者们算了一笔账,目前大多数供应商调用405B的定价保持在30个tokens/s左右,才能覆盖住商业价值。对比来看,70B模型则更实惠多了,能达到150tokens/s以上。

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

不过贾扬清,表示即便405B的性价比不高,“但依然可以收支平衡,这取决于良好的优化和良好的工作量饱和度”,并同时提醒VC朋友们:“对于这个价格的纯API服务,不要期望像传统SaaS那样获得80%的利润率。”

这还没完,大神贾扬清最后下结论了:量化(模型)将成为标准! 忘掉FP16吧,Int8/FP8才是出路!PS:Int8/FP8是指更小的神经张量的数值类型,代表着大模型所需的空间资源和算力资源。

并给出了一定的量化建议:量化需要谨慎。一个尺度足以处理整个张量的时代一去不复返了,而是需要进行channel/group的量化,以保证质量不会下降。

同时,贾扬清还预测405B会因为速度和价格的原因,采用和接受度会受到持续的影响。当然也Cue到了Mistral Large 2(123B),非常期待业内的测试效果。

NLP博主“刘聪NLP”也表示对于Llama3.1的成本有一种无力感:对于绝大多数开发者,Llama3.1的8B和70B版本的能力的提高才更有意义。

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

刘聪指出:405B即使效果很棒,但是有多少企业有资格玩一把呢?个人玩家就更不用说了,光模型大小就820G,别说有没有显卡,也许都没有820G磁盘空间下载都没资格,太难了!

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区

2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶

奥特曼也开始注意到mini模型更受开发者欢迎!

24日,就在Llama3.1让市场兴奋的同时,奥特曼一条推特让mini掰回了一局。

“我们尽量不对任何一次评估感到太过兴奋,但很高兴看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o,而价格仅为其二十分之一。”

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

开放研究组织lmsys,昨天放出了一个Chatbot竞技场榜单更新,结果显示:GPT-4o mini一跃排行榜榜首,与GPT-4o并列第一,但价格更便宜,只有后者的1/20!而且各项性能都要由于早期版本。

这个榜单通过4000+用户的投票得到的,其中值得注意的是,在Hard Prompts和Coding Arena项中,GPT-4o mini依旧强悍。在数学任务上,GPT-4o mini也也跟turbo持平。

OpenAI创始成员 Karpathy在7月19日就曾发出一条推文表示:未来大模型的竞争态势是:先变小之后才能变大!

量化成为时代标准!AI大神贾扬清锐评Llama3.1:很难盈利、成本巨高、速度却马马虎虎-AI.x社区图片

总结一下,量化模型的时代已经来了!至于原因,小编认为有两点:一、大模型侧训练所需的数据和算力已经出现了增长瓶颈,二、在盈利之前,绝大多数开发者难以负担大参数规模的成本。

最后,为各位奉上更小参数的Mistral Large 2下载链接,诸位不妨体验一把:

​https://huggingface.co/mistralai/Mistral-Large-Instruct-2407​

本文转载自​​51CTO技术栈​​​,作者:言征​​​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐