加速人工智能项目的默认方法是增加GPU集群的大小。然而,在GPU日益短缺的情况下,成本越来越高。许多人工智能公司“将其筹集的总资本的80%以上用于计算资源”,这无可厚非。GPU是人工智能基础设施的基石,应该为其分配尽可能多的预算。然而,在这些高昂的成本中,还有其他提高GPU性能的方法应该考虑,而且越来越必要。
扩展GPU集群远非易事,尤其是在生成式人工智能暴力扩张导致GPU短缺的情况下。NVIDIA A100 GPU是首批受到影响的GPU之一,而且它们现在非常稀缺,一些版本的交付周期长达一年。这些供应链挑战迫使许多人考虑将更高端的H100作为替代品,但很明显会付出更高的价格。对于那些投资于自己的基础设施,为其行业创造下一个伟大的生成式人工智能解决方案的创业者来说,需要从现有GPU中榨取每一滴效率。
让我们来看看企业如何通过提议修改网络和存储的人工智能基础设施设计,从其计算投资中获得更多。
数据问题
一个有用的方法是考虑现有计算基础设施的低效率,以及如何缓解这些资源的最佳利用率。最大限度地提高GPU利用率是一个挑战,因为数据传输速度往往太慢,无法让GPU保持忙碌。一些用户的GPU利用率低至20%,这显然是不可接受的。这是人工智能团队开始寻找最大化利用人工智能投资的好地方。
GPU是人工智能的引擎。正如汽车发动机需要汽油才能运行一样,GPU也依靠数据运行。限制数据流会限制GPU性能。如果GPU的工作效率只有50%,那么人工智能团队的生产力就会降低,一个项目需要两倍的时间才能完成,投资回报率也会减半。基础设施设计必须确保GPU能够以最高效率运行,并提供预期的计算性能。
值得注意的是,DGX A100和H100服务器都具有高达30 TB的内部存储容量。然而,考虑到平均模型大小约为150 TB,这种容量对于绝大多数深度学习模型来说是不可行的。因此,需要额外的外部数据存储器来保持GPU提供数据。
存储性能
AI存储由服务器、NVMe SSD和存储软件组成,通常封装在一个简单的设备中。正如GPU被优化为与数十万个内核并行处理大量数据一样,存储也需要高性能。人工智能中存储的基本要求是——存储整个数据集——能够以线速(网络允许的最快速度)将数据传输到GPU,以使GPU饱和并保持其高效运行。任何不足都是对这种非常昂贵和有价值的GPU资源的利用不足。
以能够跟上全速运行的10或15台GPU服务器集群的速度交付数据,将有助于优化GPU资源,并在整个环境中提高性能,尽可能充分利用预算,从整个基础设施中获得最大收益。
事实上,挑战在于,没有针对AI进行优化的存储供应商需要许多客户端计算节点来从存储中提取全部性能。如果从一个GPU服务器开始,则反过来需要许多存储节点才能达到该性能才能为单个GPU服务器供应。
不要相信所有的基准结果;当同时使用多个GPU服务器时,很容易获得较大的带宽,但AI受益于存储,无论何时需要,它都会将所有性能提供给单个GPU节点。坚持使用能够提供所需超高性能的存储,但它可以在单个存储节点中实现这一点,并且能够将此性能提供给单个GPU节点。这可能会缩小市场范围,但在开始人工智能项目之旅时,它是优先事项之一。
网络带宽
越来越强大的计算能力推动了对其他人工智能基础设施的需求不断增加。带宽要求已经达到了新的高度,能够管理每秒从存储设备通过网络发送并由GPU处理的大量数据。存储设备中的网络适配器(NIC)连接到网络中的交换机,这些交换机连接到GPU服务器内部的适配器。NIC可以在正确配置的情况下将存储直接连接到1或2个GPU服务器中的NIC,不会出现瓶颈,确保带宽足够高,可以将最大数据负载从存储传递到GPU,使其在持续的时间内保持饱和,这是关键,在许多情况下,未能做到这一点是我们看到GPU利用率较低的原因。
GPU编排
一旦基础设施到位,GPU编排和分配工具将极大地帮助团队更高效地汇集和分配资源,了解GPU的使用情况,提供更高级别的资源控制,减少瓶颈并提高利用率。只有在底层基础设施允许数据首先正确流动的情况下,这些工具才能按预期完成所有这些工作。
在人工智能中,数据是输入,因此用于企业关键任务应用程序(如库存控制数据库服务器、电子邮件服务器、备份服务器)的传统企业闪存的许多伟大功能与人工智能根本不相关。这些解决方案是使用传统协议构建的,虽然它们已被重新用于人工智能,这些传统基础显然限制了它们在GPU和AI工作负载方面的性能,推高了价格,并将资金浪费在过于昂贵和不必要的功能上。
在当前全球GPU短缺的情况下,再加上人工智能行业的蓬勃发展,找到最大限度提高GPU性能的方法变得前所未有的重要——尤其是在短期内。随着深度学习项目的蓬勃发展,这些是降低成本和提高产出的几个关键方法。