译者 | 布加迪
审校 | 重楼
OpenAI的GPT-4和Anthropic的Claude 2等大语言模型(LLM)已经凭借其生成人类级文本的功能激发了公众的想象力。企业也同样热情高涨,许多企业在探索如何利用LLM改进产品和服务。然而,一大瓶颈严重制约了最先进的LLM在生产环境中的采用,那就是速率限制。有一些方法可以突破这种速率限制,但如果没有计算资源方面的改进,真正的进步可能不会到来。
承担成本
公共LLM API允许用户访问OpenAI和Anthropic等公司的模型,对每分钟可以处理的token(文本单位)的数量、每分钟的请求数量以及每天的请求数量施加了严格的限制。
对OpenAI GPT-4的API调用目前限制为每分钟3个请求(RPM)、每天200个请求,以及每分钟最多10000个token(TPM)。最高档允许10000 RPM和300000 TPM的限制。
针对每分钟需要处理数百万个token的大型生产级应用程序,这种速率限制使得企业使用最先进的LLM实际上行不通。请求不断增多,需要几分钟乃至几小时,无法进行任何实时处理。
大多数企业仍在竭力安全有效地大规模采用LLM。但是即使它们解决了数据敏感性和内部流程方面的挑战,速率限制也成为一个顽固的障碍。随着产品使用和数据的积累,围绕LLM开发产品的初创公司很快就会遇到瓶颈,但拥有庞大用户群的大企业受到的限制最大。如果没有特殊的访问机制,它们的应用程序根本无法运行。
该怎么办?
规避速率限制
一条路子是完全绕过速率限制技术。比如说,有些特定用途的生成式AI模型没有LLM瓶颈。总部位于英国牛津的初创公司Diffblue依赖没有速率限制的强化学习技术。它在一件事上做得非常好,非常有效,可能覆盖数百万行代码。它自主创建Java单元测试的速度是开发人员的250倍,编译速度是开发人员的10倍。
由Diffblue Cover编写的单元测试使您能够快速了解复杂的应用程序,从而使大企业和初创公司都能够满怀信心地进行创新,这对于将遗留应用程序迁移到云端是理想选择。它还可以自主地编写新代码、改进现有代码、加速CI/CD管道,在不需要人工审查的情况下深入洞察与变更相关的风险。这不赖。
当然,一些公司不得不依赖LLM。它们又有什么选择?
增加计算资源
一种选择就是请求提高公司的速率限制。到目前为止这个做法不错,但潜在的问题是,许多LLM提供商实际上没有额外的能力好提供。这是问题的症结所在。GPU可用性取决于来自台积电等代工厂的硅圆片总数。占主导地位的GPU制造商英伟达无法采购足够的芯片来满足AI工作负载带来的爆炸式需求,大规模推理需要成千上万个GPU组合在一起。
增加GPU供应量的最直接方法是建造新的半导体制造工厂,即所谓的晶圆厂。但是一座新的晶圆厂造价高达200亿美元,需要数年才能建成。英特尔、三星代工、台积电、德州仪器等主要芯片制造商正在美国建设新的半导体生产设施。眼下,所有人只能等待。
因此,利用GPT-4的实际生产部署很少。真正部署GPT-4的环境范围有限,它们使用LLM作为辅助功能,而不是作为核心产品组件。大多数公司仍在评估试点和概念验证。在考虑速率限制之前,本身就需要将LLM集成到企业工作流程中。
寻找答案
GPU制约限制了GPT-4的处理能力,这促使许多公司使用其他生成式AI模型。比如说,AWS拥有自己的专门用于训练和推理的芯片(一旦训练好就运行模型),从而为客户提供了更大的灵活性。重要的是,并不是每个问题都需要最强大、最昂贵的计算资源。AWS提供了一系列更便宜、更容易调优的模型,比如Titan Light。一些公司在探索替代方案,比如对Meta的Llama 2等开源模型进行微调。针对涉及检索增强生成(RAG)、需要将上下文附加到提示并生成响应的简单用例,功能较弱的模型就足够了。
另一些技术也有所帮助,比如跨多个具有较高限制的旧LLM并行处理请求、数据分块和模型蒸馏。有几种技术可以降低推理的成本、提高速度。量化降低了模型中权重的精度,权重通常是32位浮点数。这不是一种新方法。比如说,谷歌的推理硬件张量处理单元(TPU)只适用于权重被量化为8位整数的模型。该模型失去了一些准确性,但变得小巧得多,运行起来更快。
一种名为“稀疏模型”的新流行技术可以降低训练和推理的成本,耗费的人力比模型蒸馏更少。LLM好比是许多较小语言模型的集合。比如说,当您用法语向GPT-4询问问题时,只需要使用模型的法语处理部分,稀疏模型就利用了这个特点。
您可以做稀疏训练,只需要训练模型的法语子集,也可以做稀疏推理,只运行模型的法语部分。与量化一起使用时,这可以从LLM中提取更小的专用模型,这种模型可以在CPU而不是GPU上运行。GPT-4之所以出名,是由于它是一个通用文本生成器,而不是更狭窄、更特定的模型。
在硬件方面,专门针对AI工作负载的新处理器架构有望提高效率。Cerebras已经研制了一种巨大的晶圆级引擎,针对机器学习进行了优化,而Manticore正在改造制造商丢弃的“废弃”GPU芯片,以提供实用的芯片。
最终,最大的成效将来自需要更少计算的下一代LLM。结合经过优化的硬件,未来的LLM可以突破目前的速率限制障碍。目前,众多渴望的公司竞相要求利用LLM的功能,生态系统不堪重负。那些希望在AI领域开辟新道路的人可能需要等到GPU供应进一步趋缓之后。具有讽刺意味的是,这些限制可能恰恰有助于撇除围绕生成式AI的一些泡沫炒作,让这个行业有时间适应积极的模式,以便高效经济地使用它。
原文标题:The biggest bottleneck in large language models,作者:Matt Asay