量化成为时代标准！AI大神贾扬清锐评Llama3.1：很难盈利、成本巨高、速度却马马虎虎-51CTO.COM

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

不管开源还是闭源模型，最近量化小模型的风头正在盖过大模型！

就在Llama3.1昨天正式发布以后，市面上一片兴奋：开源模型可以比肩GPT-4o，国内几乎所有供应商纷纷宣布接入Llama3.1的同时，我们也看到了圈内人士另一种声音：

“405B模型太大了”、“难以盈利、成本很高、速度一般。”

紧接着，素以小模型著称的Mistral AI也再一次用实力证明：Llama3.1真没必要那么“参数浪费”！

其今天刚刚发布的最新模型Mistral Large 2，参数只有123B，用不到三分之一的参数量性能就可以媲美Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。

这让“大模型顶流er”们哪里说理去！

图片

事实真相就是这样。

AI大神贾扬清今天发推文表示：Llama 3.1 405B 确实是一款难以盈利的机型。

如果你用一台或半台机器去运行Llama3.1 405B，就会发现成本significant（巨高），速度却so-so（马马虎虎）。

那好，既然自己运行太高，我调用云厂商的接口还不行吗？

图片

贾扬清又帮各位大模型爱好者们算了一笔账，目前大多数供应商调用405B的定价保持在30个tokens/s左右，才能覆盖住商业价值。对比来看，70B模型则更实惠多了，能达到150tokens/s以上。

图片

不过贾扬清，表示即便405B的性价比不高，“但依然可以收支平衡，这取决于良好的优化和良好的工作量饱和度”，并同时提醒VC朋友们：“对于这个价格的纯API服务，不要期望像传统SaaS那样获得80%的利润率。”

这还没完，大神贾扬清最后下结论了：量化（模型）将成为标准！忘掉FP16吧，Int8/FP8才是出路！PS:Int8/FP8是指更小的神经张量的数值类型，代表着大模型所需的空间资源和算力资源。

并给出了一定的量化建议：量化需要谨慎。一个尺度足以处理整个张量的时代一去不复返了，而是需要进行channel/group的量化，以保证质量不会下降。

同时，贾扬清还预测405B会因为速度和价格的原因，采用和接受度会受到持续的影响。当然也Cue到了Mistral Large 2（123B），非常期待业内的测试效果。

NLP博主“刘聪NLP”也表示对于Llama3.1的成本有一种无力感：对于绝大多数开发者，Llama3.1的8B和70B版本的能力的提高才更有意义。

图片

刘聪指出：405B即使效果很棒，但是有多少企业有资格玩一把呢？个人玩家就更不用说了，光模型大小就820G，别说有没有显卡，也许都没有820G磁盘空间下载都没资格，太难了！

奥特曼也开始注意到mini模型更受开发者欢迎！

24日，就在Llama3.1让市场兴奋的同时，奥特曼一条推特让mini掰回了一局。

“我们尽量不对任何一次评估感到太过兴奋，但很高兴看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o，而价格仅为其二十分之一。”

图片

开放研究组织lmsys，昨天放出了一个Chatbot竞技场榜单更新，结果显示：GPT-4o mini一跃排行榜榜首，与GPT-4o并列第一，但价格更便宜，只有后者的1/20！而且各项性能都要由于早期版本。

这个榜单通过4000+用户的投票得到的，其中值得注意的是，在Hard Prompts和Coding Arena项中，GPT-4o mini依旧强悍。在数学任务上，GPT-4o mini也也跟turbo持平。

OpenAI创始成员 Karpathy在7月19日就曾发出一条推文表示：未来大模型的竞争态势是：先变小之后才能变大！

图片

总结一下，量化模型的时代已经来了！至于原因，小编认为有两点：一、大模型侧训练所需的数据和算力已经出现了增长瓶颈，二、在盈利之前，绝大多数开发者难以负担大参数规模的成本。

最后，为各位奉上更小参数的Mistral Large 2下载链接，诸位不妨体验一把：