如果亚马逊云科技、微软和谷歌能够物尽其用,则收入有望大幅提升。
各大云服务商已经部署数以万计的GPU与AI加速器,希望充分满足市场在大语言模型方面的需求激增。
但TechInsights分析师Owen Rogers在采访中表示,尽管运营商一方完成了大规模部署,但证据表明大部分资源并未得到充分利用。
根据这家分析公司的估算,2023年内各云服务商的87.8万个加速器总计完成约700万个GPU时的工作量,而对应收入数字推测可能在58亿美元上下。
虽然云服务商向来不对外分享基础设施资源的实际利用率水平,但Rogers指出如果GPU集群能够以几乎满负荷的状态运行,那么收入数字一定会大大提高。
以亚马逊云科技的UltraScale集群为例,该集群由2万个英伟达H100 GPU组成,每8个实例为一组对外租用,价格为每小时98.32美元。Rogers表示,假设每个区域都有一套集群能在年内实现100%的利用率,那么单是亚马逊一家的每年收入就应该在65亿美元左右。
Rogers在即将发布的报告中写道,“事实上,如果亚马逊云科技当前提供的各种加速器类型都能在各区域的2万个加速器集群中全天候运行,那么产生的收入将占2023年其云业务总收入的50%。”
既然结果并非如此,那么唯一合乎逻辑的解释,就是这些加速器未能得到有效利用。
Rogers承认,不少云服务都在利用这些加速器处理内部工作负载,因此会在某种程度上影响这一诊断。但在他看来,基础设施的首要部署目标就是产生业务价值,借此为硬件投资带来回报。
另一种思路……
这个问题似乎也跟用户使用云服务的常规方式有关。Rogers认为,云服务实际在通过多种方式提供价值。首先,客户往往会在不提前通知的情况下部署并扩展其应用程序;第二,用户会基于纯消费的模式访问各种领先技术。
而加速器主要属于第二类,这是因为其成本仍然较高,所以属于偶尔使用的高端资源。技术媒体The Next Platform之前曾就此开展讨论,认为生成式AI工作负载正在市场上形成一股巨大的GPU需求热潮,迫使人们一度愿意在eBay上砸下4万美元抢购一张H100 PCIe卡。而对于那些无需长期运行AI工作负载的客户来说,在云端随时运行这类负载肯定是比自主构建集群便宜得多。
但Rogers解释道,云服务的本质也要求亚马逊云科技和微软等厂商构建起远超其预期容量的设施规模。换句话说,服务商必须提前为峰值需求做好准备。
另外值得注意的是,除了少数例外,GPU并不会像CPU那样存在过度配置。一般来讲,GPU资源可以供虚拟机乃至整个服务器上的客户使用。
也有一部分云服务商,特别是那些规模较小的利基厂商,会采用英伟达提供的多实例GPU技术。这项技术允许将加速器拆分成多个GPU。与此同时,也有厂商选择所谓“时间切片”技术以在同一GPU上运行多个工作负载。
但也必须承认,在如今这个大语言模型为王的时代,相当一部分客户不可能满足于只占有几分之一的GPU。他们需要成百甚至上千个完整GPU,用以承载大模型那恐怖的训练工作负载。
Rogers还发现云用户经常上报加速器容量不足,并强烈怀疑这是由资源调度不善所造成。
“我认为目前市场对于加速器的需求并不低,只是很多需求在同一时段内涌来,因此引发了资源争用。”
换句话说,如果有五家客户都想申请8000个GPU来训练自己的模型,但云服务商那边只准备了2万个,那就必然有三家客户需要等待。
也正如Rogers指出,不少证据都支持这样的推断。过去一年以来,亚马逊云科技和Google Cloud先后推出了调度服务,旨在帮助优化成本、服务可用性并提高资源利用率。
能靠抽象解决问题吗?
正如前文所提到,大多数GPU实例已经是以虚拟机和裸机服务器的形式交付。但Rogers评论称,AI资源在云端还有其他使用方式,比如说亚马逊的SageMaker平台。
他解释称,这些服务消除了部署AI/机器学习工作负载的复杂性,“服务商的思路很简单:如果客户不想自购容量、不确定什么时候需要使用容量、或者不打算为容量管理浪费太多精力,那可以把这事直接交给亚马逊云科技,由服务商负责打理一切。”
更高的抽象水平也意味着客户不必考虑对各种加速器做针对性优化。毕竟除了AI硬件领域的主导者英伟达之外,目前所有主要云服务商也都开发出了自己的定制芯片,AMD最近发布的MI300X GPU也已经得到微软等大客户的接纳和使用。
Rogers认为随着时间推移,用户的技能组合也会朝着SageMaker这样的云平台倾斜。但就目前来讲,“对于一名了解机器学习和AI的程序员来说,哪怕大家已经比较熟悉GPU及其编程特性,要想上手SageMker或者谷歌/微软的同类平台也还须专门的学习和适应。所以至少就目前来讲,多数人可能还是更倾向使用自己的固有知识,而不是接纳一套全新的AI云平台。”
大量囤积GPU究竟是福是祸?
而且,云服务商并不是市面上唯一的GPU租用选项。过去几年来出现了以CoreWeave为代表的多家托管及裸机即服务供应商,他们同样能够满足客户对于大规模GPU部署的需求。
这些厂商经常夸耀其GPU价格更具竞争力。还是以CoreWeave为例,其H100价格可低至每小时2.23美元——只要客户愿意认购足够多的设备,就能享受到极致低廉的成本。
但Rogers认为CoreWeave这类厂商也面临着自己的问题:虽然也能在市场上占据一席之地,但局限性在于只适合那些需要在短时间内运行大量训练负载的客户。所以“从长远来看,我认为他们的日子也不会太好过。”
而其中最大的挑战,就在于一旦客户将自己的数据存储在云设施当中,那么导出成本将是一笔大钱。Rogers解释道,假设我们把数据存储在亚马逊云科技当中,那么将这些数据转移到GPU农场以供处理本身就是笔不小的开支。
对于那些愿意从零开始训练大语言模型的公司来说,数据移动的成本可能微不足道,所以他们更适合选择CoreWeave这类服务商。但在另一方面,如果大家本身就是一家小企业,打算重新训练Llama 2 7B模型来支撑自己的客服聊天机器人,那么直接在云端运行训练负载可能更便宜、也更方便。
“即使对于那些GPU需求量巨大的应用程序,超大规模云运营商也能提供更多必要服务,帮助客户顺利完成自己的AI之旅。”
而且在Rogers看来,目前CoreWeave等服务商成本更低的状况也很有可能在未来发生改变。他表示,“超大规模服务商掌握着更强劲的收入和购买力空间,只要他们愿意,完全可以凭借批量采购优势压低加速器成本、再进一步削减服务价格。”
“毕竟他们的体量更大、购买力更强,而且可以通过其他服务来抵偿自己在某些服务上的利润让步。”
对于Rogers来说,尽管AI领域不乏各种炒作和乱象,但AI本身的实现确实需要与其他多种服务紧密对接。“我们仍然需要CPU、需要大量的存储空间、需要大量内存资源。所以我个人将保持乐观,哪怕目前回报一般,AI设施部署也不至于让云服务商赔本。”