人工智能的发展如何引发数据中心的重新设计

人工智能 数据中心
最近,大型云计算、媒体和SaaS提供商在新建数据中心的比例方面更加占据主导地位。对于那些所有者/运营商而言,没有标准的数据中心设计。每个数据中心都是不同的,当前环境下的主要挑战就是跟上所有正在发生的变化。

正在进行的数据中心重新设计的一个主要方面是,由于人工智能的庞大、复杂的工作负载以及需要添加更多图形处理单元(GPU)、张量处理单元(TPU)或加速器。

这些单元所需的功率和产生的热量,迫使设计人员重新思考什么是可行的和最佳的布局设计。而且,重新设计的成本正在不断增加。

因此,根据Tirias Research的数据,到2028年,业主每年可能会在新的人工智能数据中心基础设施上花费760亿美元。

数据中心当前面临的挑战:当今基于GPU的密集集群

Tom's Hardware的Anton Shilov最近评估了人工智能工作负载对GPU的巨大需求:

  • Omdia表示,Nvidia在2023年第二季度实际上售出了900吨H100处理器。
  • Omdia估计,Nvidia在第二季度为人工智能(AI)和高性能计算(HPC)应用销售了超过900吨(180万磅)H100计算GPU。Omdia认为,带有散热器的Nvidia H100计算GPU的平均重量超过3公斤(6.6磅),因此Nvidia在第二季度出货了超过30万台H100。

因此,单个Nvidia H100图形处理单元(GPU)的重量约为一个轻型保龄球的重量。Omdia上面计算的重量不包括相关的布线或液体冷却。

Schneider Electric数据中心创新副总裁Steven Carlini表示,用于人工智能的机架必须重新设计,以适应额外的重量和热量。其将当今密集的人工智能服务器集群与“整齐分布”的成排普通服务器机架进行了对比,这些服务器机架在当代人工智能开始认真发展之前很常见,将整齐的行变成了密集的热运行集群。

Carlini表示,这些人工智能集群每个机架的功耗高达100千瓦,而传统的非人工智能数据中心机架的每个机架功耗高达20千瓦。Carlini的同事、Schneider Electric能源管理研究中心的高级研究分析师Victor Avelar指出,每台Nvidia H100的功耗为700瓦,而旧款A100的功耗为400瓦,后者的需求量仍然很高。两种GPU类型都需要液体冷却。

每个GPU中密集的800亿个晶体管硅区域产生大部分热量。Amazon和Google等企业正在安装的一台人工智能服务器包含8个这样的GPU。如果设计得当,人工智能服务器集群可以持续100%运行,相比之下,非人工智能AI应用的服务器利用率要低得多。

数据中心能源管理的长远视角

承载当今人工智能工作负载的主要数据中心的所有者,长期以来一直致力于减轻对环境的影响,并且在能源管理方面,他们往往着眼于长远。的确,能源消耗比以往任何时候都高,但现在大部分顶级数据中心容量都是由可再生能源供电,业主正在寻找其他零排放替代方案。例如,Microsoft在5月份签署了一份合同,从2028年开始从聚变能源初创企业Helion购买至少50兆瓦的电力。

Victor Avelar致力于量化当今数据中心在其生命周期内的碳足迹,并帮助优化未来数据中心的布局和设计。Avelar在其免费的数据中心生命周期二氧化碳当量计算器上进行了演示,该计算器既关注了隐含碳,如数据中心建设中使用的混凝土的资源、制造和浇筑过程中排放的碳,也关注了数据中心运营过程中产生的碳。

成本计算器帮助规划者考虑替代方案并选择最佳设计标准。例如,Schneider Electric对电源进行了研究。Avelar对比了西弗吉尼亚州的一个燃煤电厂和法国的一个核电厂。

通过按范围查看年度总二氧化碳当量,发现西弗吉尼亚选项的范围2(从当地公用事业购买的电力)排放量在混合排放中所占的比例要大得多。相比之下,法国的选项在范围3(间接能源,例如新数据中心混凝土中的隐含碳)中所占的比例更大。范围1和范围2的排放更多地在规划者的控制范围内。

数据中心所有权的转变

Carlini指出,从历史上看,数据中心往往遵循一种类似购物中心的模式,即主要租户和精品店,所有者只专注于满足当地需求的建筑业务,并管理空间租赁。

但最近,大型云计算、媒体和SaaS提供商在新建数据中心的比例方面更加占据主导地位。对于那些所有者/运营商而言,没有标准的数据中心设计。每个数据中心都是不同的,当前环境下的主要挑战就是跟上所有正在发生的变化。

责任编辑:姜华 来源: 千家网
相关推荐

2023-09-19 14:35:05

2023-10-09 15:39:28

人工智能数据中心

2023-07-21 10:56:17

人工智能数据中心

2023-05-19 10:42:49

数据中心云计算

2024-02-20 14:33:24

人工智能数据中心

2017-07-26 16:26:47

数据中心人工智能技术

2023-10-13 14:14:21

数据中心人工智能

2018-12-21 15:15:48

2023-04-27 09:44:47

人工智能数据中心

2020-10-21 14:48:00

机器学习人工智能数据中心

2018-05-04 07:07:40

工智能AI数据中心

2019-03-19 12:46:04

人工智能数据中心运维管理

2023-05-30 18:39:08

人工智能数据中心

2023-08-24 15:42:20

2023-03-24 12:54:11

人工智能数据中心

2018-09-14 08:38:25

人工智能光纤技术数据中心

2020-08-17 10:06:25

自动驾驶人工智能数据中心

2021-02-21 10:14:59

数据中心人工智能

2021-03-22 12:08:30

人工智能
点赞
收藏

51CTO技术栈公众号