AI工厂中的炒作与现实

人工智能 数据中心
AI工厂是专为AI处理而设计的专业化数据中心,而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。AI工厂以GPU为核心构建,在处理AI工作负载时,GPU在速度和性能上均优于CPU。

AI工厂作为新兴的数据中心概念,正引领着AI处理技术的革新,然而,其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。

你可能听说过“AI工厂”这个词,但它到底意味着什么?到目前为止,这个概念更多地被炒作而非明确定义,主要是由英伟达在推动。该公司的愿景是数据中心里装满高端AI加速器,但这个愿景是现实可行的,还是只是战略营销手段?

简而言之,AI工厂是专为AI处理而设计的专业化数据中心,而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。AI工厂以GPU为核心构建,在处理AI工作负载时,GPU在速度和性能上均优于CPU。

AI工厂是专为处理大量数据以用于GenAI应用、训练模型并生成文本、图像、视频或音频等输出而设计的设施。它们还负责更新AI系统并控制其他技术,包括机器人和超级计算机。

由于GPU运行温度高且功耗大,与传统数据中心相比,AI工厂需要更多的能源和冷却。它们很可能被安置在能源成本低廉且水资源充足的地方,以便进行液冷。

一个例子是埃隆·马斯克的xAI数据中心,该中心配备了10万台英伟达H100 GPU,用于高级AI处理。按每台GPU 4万美元估算,这代表了一位客户超过40亿美元的投资——这或许说明了为什么英伟达CEO黄仁勋继续力推AI工厂的概念。

AI工厂:炒作与现实

虽然这个概念很吸引人,但我们真的会看到黄仁勋所承诺的AI工厂浪潮吗?可能并不会大规模出现。AI硬件不仅购置和运营成本高昂,而且它并不像数据库服务器那样持续运行。一旦模型训练完成,可能数月都不需要更新,导致这些昂贵的基础设施闲置。

因此,专注于基础设施和数据中心的Omdia首席分析师艾伦·霍华德认为,大多数AI硬件部署将发生在多功能数据中心。这些设施可能会设置专门的“AI区域”,同时配备用于标准计算和其他工作负载的区域。

“我们的感觉是,会有一些专门的AI数据中心,但不太可能像我们所被引导相信的那样普及。”霍华德告诉记者。

“如果我在数据中心有一个5万平方英尺的数据大厅,并且电力充足,那么我可以创建一个区域或套房,以满足AI设备部署的高电力需求。你不会看到很多数据中心里全是AI设备……它将是更大数据中心的一部分。”

对大多数人来说成本过高

咨询公司TEKsystems的首席技术官拉姆·帕拉尼阿潘同意专门AI数据中心将保持有限的观点,这主要是由于涉及的高成本。

“企业在进行的数据推理远比实际用数据训练要多,”他说。“如果你能在数据中心内划分区域,其中一些部分专门用于AI,你就可以用那部分GPU容量来训练模型,然后剩下的CPU将用于模型推理。这就是我们看到的数据中心世界如何根据企业AI的消费和使用情况进行调整。”

电信数字化转型提供商Amdocs的集团总裁兼战略与技术负责人安东尼·古纳蒂拉克认为,许多下一代AI工厂将通过AI即服务(AIaaS)模式提供给客户租赁,像AWS等主要云服务提供商都提供这种模式。

“人们试图建立AI工厂,从根本上创建一个模型,以便他们可以将AI能力作为一种服务来销售,就像我们的一些客户希望做的那样。”古纳蒂拉克告诉记者。“归根结底,可以将其视为GenAI基础设施即服务。我认为AI即服务具有很多潜在的上行空间,因为AI硬件的投资非常昂贵,而且在很多情况下,你可能不再需要它,或者你可能不需要使用那么多。”

帕拉尼阿潘补充说,AI技术发展迅速,要跟上竞争步伐的成本高得令人望而却步。“当你开始考虑这些GPU的成本,以及它们很快就会过时,这就会成为瓶颈,”他说。“如果你试图利用数据中心,你总是希望设施里能有最新的芯片,因此许多数据中心因为这些努力而亏损。”

别忘了网络

除了GPU的成本,网络硬件也需要大量投资,因为所有GPU需要高效地相互通信。EdgeCore Digital Infrastructure的战略高级副总裁汤姆·特劳戈特解释说,在典型的八GPU英伟达DGX系统中,GPU通过NVLink通信。然而,要与其他GPU共享数据,它们依赖于以太网或InfiniBand,这需要大量的网络硬件来支持连接。

“当你进行训练运行时,就像团队中的个人一样,”特劳戈特说。“他们都在同一个项目上工作,并且会定期集体汇合并交流心得。”

在较小的集群中,网络成本与传统数据中心相似。然而,在拥有5000、10000或20000个GPU的集群中,网络成本约占整体资本支出的15%,他说。由于数据集如此庞大,单个网络接口卡(NIC)很容易饱和,因此需要多个网络连接。为了避免瓶颈,需要多个NIC——成本很快就会累积。

“显然,这可能占到整体支出的30%至40%,这与前几代相比是不成比例的。”特劳戈特告诉记者。

AI工厂的未来

这仍然是一项非常新的技术。目前只有一个已知的正在开发的AI工厂,即xAI设施。英伟达最近才发布了构建AI工厂的蓝图,称为企业参考设计,以帮助指导建设过程。随着概念的发展,很多事情都可能发生变化,并且需要一些明确性。

“所以,这会是一个小趋势,只有少数公司建立少数专门的AI工厂,还是会更大?我个人猜测,大概要过一年,我们才能更好地判断新数据中心建设在AI工厂世界中是否基本上呈现出新的面貌。”霍华德说。

责任编辑:姜华 来源: 企业网D1Net
相关推荐

2019-08-26 11:21:33

2024-09-02 13:59:16

2019-10-10 10:10:32

人工智能网络安全技术

2023-07-25 17:54:42

2024-05-28 13:00:55

2019-05-06 10:50:44

AI智能算法

2020-07-28 23:22:35

制造业工业物联网IIOT

2022-09-02 13:43:33

零信任首席信息安全官

2024-06-24 08:07:23

2024-09-10 13:40:54

2014-02-28 15:57:02

MWC物联网炒作

2023-12-23 23:32:08

量子计算工具

2018-04-04 16:37:55

2010-08-25 10:55:04

云计算

2019-07-12 04:56:16

加密数据安全数据泄露

2018-05-10 15:44:09

AI未来工厂行业

2010-03-26 11:21:41

Oracle流程管理工作流

2014-08-27 09:51:13

Hadoop

2023-06-01 17:51:24

2023-07-07 00:54:05

点赞
收藏

51CTO技术栈公众号