英伟达最强劲敌Groq一招绝杀GPU，反超GPT-4o mini2倍，AI大佬Karpathy：直接飞升AGI!-51CTO.COM

出品 | 51CTO技术栈（微信号：blog51cto）

Llama 3.1 405B被吐槽太笨重？

英伟达对手AI新星Groq一招绝杀：上LPU直接速度翻倍，直接让Llama 3.1飞升AGI!

Meta 最新发布的 Llama 3.1 405B 的开源让AI圈不平静了！

追捧者感慨"GPT-4o的能力已握在手中”，而批评者反驳说，大体量消耗这么多算力，有些结果跑得还不如GPT-4o mini，太失望了！

不过， Meta与英伟达劲敌Groq 的联手直接让速度问题从此消失了！

Groq 利用自己的超级速度向社区提供最新的 Llama 3.1 模型，包括 405B Instruct、70B Instruct 和 8B Instruct。

网友试完后惊讶地说：我的天啊，@GroqInc + @AIatMeta Llama 3.1 405b，我们问出的问题获得了实时的答案，真的做到了！！！

图片

看了这个视频展示，不得不感叹Groq + Llama 3.1的速度太猛了！

小扎对这场令人惊叹的合作表示，“真的很高兴看到 Groq 为 Llama 3.1 模型的云部署提供超低延迟推理......通过向社区提供我们的模型和工具，Groq 这样的公司可以在我们的工作基础上再接再厉，帮助推动整个生态系统向前发展"。

Groq首席执行官乔纳森-罗斯（Jonathan Ross）说："Meta正在为人工智能开发一个类似于Linux的开放操作系统——不仅仅是为提供快速人工智能推理的Groq LPU，而是为整个生态系统。”

他补充说，Meta已经赶上了领先的专有模型，超越闭源模型只是时间问题。

前OpenAI研究员、AI大佬Andrej Karpathy称赞Groq的推理速度说："这太酷了。这感觉就像 AGI——你只需与电脑对话，它就能立即完成任务。

图片

在过去的几个月里，Groq 以其比竞争对手更快、更经济高效地执行人工智能任务的承诺而备受关注。这要归功于它的语言处理单元（LPU），由于其线性操作，在执行这些任务时比 GPU 更有效率。虽然 GPU 对模型训练至关重要，但部署中的人工智能应用（称为 "推理"）需要更高的效率和更低的延迟。

由于试玩者的热情涌入，GroqCloud 负责人Sunny Madra在X上宣布Llama 3.1 405b体验暂时关闭了。

他写道，看到 Groq 上对 Llama 3.1 的需求和兴奋程度令人难以置信！我们被公众对 405b 的需求所淹没，很抱歉你们中的许多人经历了漫长的排队时间。我们将暂时关闭405b，直到我们能够增加容量并确保增加容量并提供更高水平的服务。

图片

1.速度称王：Groq+ Llama 3-70B是GPT-4o mini两倍快

"Groq的速度快得惊人，目前每秒可处理1200多个令牌。”

Groq甚至开源了一款快如闪电的炒股机器人。

Groq的人工智能应用工程师 Benjamin Klieger 介绍说："StockBot——一个由 Groq 上的 Llama 3-70B 支持的快如闪电的开源人工智能聊天机器人，可提供实时股票图表、财务信息、新闻和筛选器。

图片

StockBot运行起来的速度是这样的：

根据 Artificial Analysis 的报告，在比较不同供应商提供的Llama 3 70B（一种人工智能模型）的性能时，GPT-4o Mini的速度明显快于大多数供应商。然而，Groq公司提供的Llama 70B模型，每秒能输出约340个输出令牌（tokens），这比GPT-4o Mini快了两倍多。

图片

Groq 项目负责人 Rick Lamers 最近发布了 8B 和 70B 版本的 Llama 3 Groq Tool Use 型号。

图片

他在 X 上分享说，这些模型是开源的，并针对工具使用进行了全面微调，在 BFCL 基准测试中名列前茅，超越了所有其他模型，包括 Claude Sonnet 3、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 等专有模型。5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 等专有型号。

图片

感兴趣的朋友可以移步抱抱脸：

https://huggingface.co/Groq/Llama-3-Groq-8B-Tool-Use

自推出以来的 16 周内，Groq 免费提供了为 LLM 工作负载提供支持的服务，因此得到了开发人员的广泛欢迎，据 Ross 称，目前已有超过 28.2 万名开发人员。

"Groq的使用非常简单，而且不需要任何费用。你只需使用我们的应用程序接口（API），我们与大多数已开发的应用程序都兼容，"罗斯说。他补充说，如果客户有大规模需求，每秒要生成数百万个令牌，公司可以为客户部署内部硬件。

2.抛弃GPU,Groq神秘的LPU——不仅快还省电

Groq由罗斯于2016年创立，其与众不同之处在于摒弃了GPU，转而使用其专有硬件LPU。

在加入Groq之前，罗斯曾在谷歌工作，创建了张量处理单元（TPU）。他负责设计和实现原始 TPU 芯片的核心元件，该芯片在谷歌的人工智能工作（包括 AlphaGo 竞赛）中发挥了关键作用。

LPU 仅用于运行 LLM，而不是训练它们。罗斯说："在推理或实际运行模型时，LPU的速度大约是GPU的10倍，"他补充说，在训练LLM时，那是GPU的任务。

当被问及这种速度的目的时，罗斯说："人类不喜欢这样阅读，就像老式电传打字机打印出来的东西一样。眼睛扫描页面的速度非常快，几乎在一瞬间就能判断出是否得到了想要的东西。"

Groq 的 LPU 对英伟达、AMD 和英特尔等传统 GPU 制造商构成了巨大挑战。Groq专门为加速深度学习计算而打造了张量流处理器，而不是为人工智能修改通用处理器。

LPU旨在克服两个LLM瓶颈：计算密度和内存带宽。就 LLM 而言，LPU 的计算能力大于 GPU 和 CPU。这就减少了每个单词的计算时间，从而可以更快地生成文本序列。

此外，由于消除了外部内存瓶颈，LPU 推理引擎在 LLM 上的性能比 GPU 高出数个数量级。LPU 的设计优先考虑数据的顺序处理，这是语言任务所固有的。这与 GPU 形成鲜明对比，后者针对图形渲染等并行处理任务进行了优化。"

Ross说："在生成第99个字之前，你无法生成第100个字，因此它们有一个顺序部分，而GPU根本无法做到这一点。

此外，他还补充说，GPU是出了名的耗电大户，每个芯片所需的电量往往相当于普通家庭的电量。"他说："LPU 的耗电量仅为 GPU 的十分之一。

参考链接: https://analyticsindiamag.com/ai-origins-evolution/groq-makes-llama-3-1-agi/