如何突破大语言模型的最大瓶颈

译文
人工智能
速率限制意味着大家都在等待更好的计算资源或不同的生成式AI模型。

译者 | 布加迪

审校 | 重楼

OpenAIGPT-4AnthropicClaude 2大语言模型(LLM)已经凭借其生成文本的功能激发了公众的想象力。企业也同样热情高涨,许多企业在探索如何利用LLM改进产品和服务。然而,一瓶颈严重制约了最先进的LLM在生产环境采用,那就是速率限制。有一些方法可以突破这种速率限制,如果没有计算资源方面的改进,真正的进步可能不会到来。

承担成本

公共LLM API允许用户访问OpenAIAnthropic等公司模型对每分钟可以处理的token(文本单位的数量、每分钟的请求数量以及每天的请求数量施加了严格的限制。

OpenAI GPT-4API调用目前限制为每分钟3个请求RPM每天200个请求,以及每分钟最多10000token(TPM。最高允许10000 RPM300000 TPM的限制。

针对每分钟需要处理数百万个token的大型生产应用程序,这速率限制使得企业使用最先进的LLM实际上行不通。请求不断增多,需要几分钟乃至几小时,无法进行任何实时处理。

大多数企业仍在竭力安全有效地大规模采用LLM。但是即使它们解决了数据敏感性和内部流程方面的挑战,速率限制也成一个顽固的障碍。随着产品使用和数据的积累,围绕LLM开发产品的初创公司很快会遇到瓶颈,但拥有庞大用户的大企业受到的限制最大。如果没有特殊的访问机制它们的应用程序根本无法运行

该怎么办

规避速率限制

条路子是完全速率限制技术。比如说,有些特定用途的生成AI模型没有LLM瓶颈。总部位于英国牛津的初创公司Diffblue依赖没有速率限制的强化学习技术。它在一件事上做得非常好,非常有效,可能覆盖数百万行代码。它自主创建Java单元测试的速度是开发人员的250倍,编译速度是开发人员的10倍。

Diffblue Cover编写的单元测试使您能够快速了解复杂的应用程序,从而使企业和初创公司都能够满怀信心地进行创新,这对于将遗留应用程序迁移到云理想选择。它还可以自主地编写新代码改进现有代码加速CI/CD管道,在不需要人工审查的情况下深入洞察与变更相关的风险。这不赖。

然,些公司不得不依赖LLM它们又有什么选择

增加计算资源

一种选择就是请求提高公司的速率限制。到目前为止这个做法不错,但潜在的问题是,许多LLM提供商实际上没有额外的能力提供。这是问题的症结所在。GPU可用性取决于来自台积电等代工厂的硅总数。占主导地位的GPU制造商英伟达无法采购足够的芯片来满足AI工作负载带来的爆炸式需求,大规模推理需要成千上万个GPU组合在一起。

增加GPU供应的最直接方法是建造新的半导体制造工厂,即所谓的晶圆厂。但是一新的晶圆厂造价高达200亿美元,需要数年才能建成。英特尔、三星代工、台积电、德州仪器等主要芯片制造商正在美国建设新的半导体生产设施。眼下所有只能等待。

因此,利用GPT-4的实际生产部署很少。真正部署GPT-4的环境范围有限,它们使用LLM作为辅助功能,而不是作为核心产品组件。大多数公司仍在评估试点和概念验证。在考虑速率限制之前,本身就需要将LLM集成到企业工作流程中。

寻找答案

GPU制约限制了GPT-4的处理能力,这促使许多公司使用其他生成式AI模型。比如说,AWS拥有自己的专门用于训练和推理的芯片一旦训练好就运行模型,从而为客户提供了更大的灵活性。重要的是,并不是每个问题都需要最强大、最昂贵的计算资源。AWS提供了一系列更便宜、更容易调的模型,比如Titan Light。一些公司在探索替代方案,比如对Meta的Llama 2开源模型进行微调。针对涉及检索增强生成RAG)、需要将上下文附加到提示并生成响应简单用例,功能较弱的模型就足够了。

另一些技术也有所帮助,比如跨多个具有高限制的旧LLM并行处理请求、数据分块和模型蒸馏。有几种技术可以降低推理的成本、提高速度。量化降低了模型中权重的精度,权重通常是32位浮点数。这不是一种新方法。比如说谷歌的推理硬件张量处理单元(TPU)只适用于权重被量化为8位整数的模型。该模型失去了一些准确性,但变得小巧得多,运行起来更快

一种名为“稀疏模型的新流行技术可以降低训练和推理的成本,耗费的人力模型蒸馏更少。LLM好比是许多较小语言模型的集合。比如说,当用法语GPT-4询问问题时,只需要使用模型的法语处理部分,稀疏模型就利用了这个特点。

可以做稀疏训练,只需要训练模型的法语子集,也可以做稀疏推理,只运行模型的法语部分。与量化一起使用时,这可以从LLM中提取更小的专用模型,这模型可以在CPU而不是GPU上运行。GPT-4之所以出名,是由于它是一个通用文本生成器,而不是更狭窄、更特定的模型。

在硬件方面,专门针对AI工作负载的新处理器架构有望提高效率。Cerebras已经研制了一巨大的晶圆级引擎,针对机器学习进行了优化,而Manticore正在改造制造商丢弃的废弃GPU芯片,以提供实用的芯片。

最终,最大的成效将来自需要更少计算的下一代LLM。结合经过优化的硬件,未来的LLM可以突破目前的速率限制障碍。目前,众多渴望的公司竞相要求利用LLM的功能,生态系统不堪重负。那些希望在AI领域开辟新道路的人可能需要等到GPU供应进一步趋缓之后。具有讽刺意味的是,这些限制可能恰恰有助于撇除围绕生成式AI的一些泡沫炒作,让这个行业有时间适应积极的模式,以便高效经济地使用它。

原文标题:The biggest bottleneck in large language models,作者:Matt Asay

责任编辑:华轩 来源: 51CTO
相关推荐

2010-01-06 09:40:19

博科资讯物流信息化

2013-07-16 16:46:28

云计算

2009-04-01 09:24:00

FTTx宽带运营商

2024-01-19 13:27:51

语言模型LLM

2011-08-19 15:42:12

Hadoop瓶颈数据处理

2023-09-25 07:31:19

算力AI框架

2018-10-09 14:45:34

计算

2018-04-26 19:05:12

云计算云存储云迁移

2018-05-07 15:01:16

工业互联网互联网互联网+

2024-04-22 13:31:00

AI模型

2017-05-22 23:41:04

2012-10-22 11:02:57

基础运营商基础网络

2024-10-21 13:20:00

视频数据集

2024-06-19 15:24:38

2024-10-25 14:30:00

模型AI

2021-06-24 10:21:41

IT管理技术

2020-09-01 10:54:14

电信市场瓶颈电信业务

2010-10-18 09:59:22

PHP程序员Web开发

2018-12-18 08:59:41

WOT2018

2020-04-22 11:11:48

Decoder性能应用
点赞
收藏

51CTO技术栈公众号