编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
不管开源还是闭源模型,最近量化小模型的风头正在盖过大模型!
就在Llama3.1昨天正式发布以后,市面上一片兴奋:开源模型可以比肩GPT-4o,国内几乎所有供应商纷纷宣布接入Llama3.1的同时,我们也看到了圈内人士另一种声音:
“405B模型太大了”、“难以盈利、成本很高、速度一般。”
紧接着,素以小模型著称的Mistral AI也再一次用实力证明:Llama3.1真没必要那么“参数浪费”!
其今天刚刚发布的最新模型Mistral Large 2,参数只有123B,用不到三分之一的参数量性能就可以媲美Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。
这让“大模型顶流er”们哪里说理去!
图片
1.AI大神、博主:模型太大不会被采用!量化才是正解!
事实真相就是这样。
AI大神贾扬清今天发推文表示:Llama 3.1 405B 确实是一款难以盈利的机型。
如果你用一台或半台机器去运行Llama3.1 405B,就会发现成本significant(巨高),速度却so-so(马马虎虎)。
那好,既然自己运行太高,我调用云厂商的接口还不行吗?
图片
贾扬清又帮各位大模型爱好者们算了一笔账,目前大多数供应商调用405B的定价保持在30个tokens/s左右,才能覆盖住商业价值。对比来看,70B模型则更实惠多了,能达到150tokens/s以上。
图片
不过贾扬清,表示即便405B的性价比不高,“但依然可以收支平衡,这取决于良好的优化和良好的工作量饱和度”,并同时提醒VC朋友们:“对于这个价格的纯API服务,不要期望像传统SaaS那样获得80%的利润率。”
这还没完,大神贾扬清最后下结论了:量化(模型)将成为标准! 忘掉FP16吧,Int8/FP8才是出路!PS:Int8/FP8是指更小的神经张量的数值类型,代表着大模型所需的空间资源和算力资源。
并给出了一定的量化建议:量化需要谨慎。一个尺度足以处理整个张量的时代一去不复返了,而是需要进行channel/group的量化,以保证质量不会下降。
同时,贾扬清还预测405B会因为速度和价格的原因,采用和接受度会受到持续的影响。当然也Cue到了Mistral Large 2(123B),非常期待业内的测试效果。
NLP博主“刘聪NLP”也表示对于Llama3.1的成本有一种无力感:对于绝大多数开发者,Llama3.1的8B和70B版本的能力的提高才更有意义。
图片
刘聪指出:405B即使效果很棒,但是有多少企业有资格玩一把呢?个人玩家就更不用说了,光模型大小就820G,别说有没有显卡,也许都没有820G磁盘空间下载都没资格,太难了!
2.OpenAI也发现了这一点奥特曼不禁夸赞GPT-4o mini登顶
奥特曼也开始注意到mini模型更受开发者欢迎!
24日,就在Llama3.1让市场兴奋的同时,奥特曼一条推特让mini掰回了一局。
“我们尽量不对任何一次评估感到太过兴奋,但很高兴看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o,而价格仅为其二十分之一。”
图片
开放研究组织lmsys,昨天放出了一个Chatbot竞技场榜单更新,结果显示:GPT-4o mini一跃排行榜榜首,与GPT-4o并列第一,但价格更便宜,只有后者的1/20!而且各项性能都要由于早期版本。
这个榜单通过4000+用户的投票得到的,其中值得注意的是,在Hard Prompts和Coding Arena项中,GPT-4o mini依旧强悍。在数学任务上,GPT-4o mini也也跟turbo持平。
OpenAI创始成员 Karpathy在7月19日就曾发出一条推文表示:未来大模型的竞争态势是:先变小之后才能变大!
图片
总结一下,量化模型的时代已经来了!至于原因,小编认为有两点:一、大模型侧训练所需的数据和算力已经出现了增长瓶颈,二、在盈利之前,绝大多数开发者难以负担大参数规模的成本。
最后,为各位奉上更小参数的Mistral Large 2下载链接,诸位不妨体验一把:
https://huggingface.co/mistralai/Mistral-Large-Instruct-2407