IT供应会利用颠覆性的技术和产品对现有的数据中心进行性能改进,高带宽内存 (HBM)便是其中之一。由于 HBM 比现有的内存芯片技术快得多,且功耗更低,占用空间更小,因此在高性能计算 (HPC) 和 人工智能 (AI)等资源密集型应用程序中将会变成主流技术。
不过,由于HBM的售价仍然较高,且需要重写某写应用程序才能被真正采用,因此目前进入主流的应用还需要一段路要走。
HBM 是如何工作的?
HBM 是美国芯片制造商 AMD 和韩国内存芯片供应商 SK Hynix 共同打造的产品,于 2008 年开始研发,2013 年将规范移交给半导体行业的标准机构 JEDEC 联盟。HBM2标准于2016年获得批准,HBM3于今年1月正式公布。当前, HBM 存储芯片的主要制造商是韩国的三星、SK 海力士和美光科技。
与中央处理器 (CPU) 和图形处理器 (GPU) 性能相比,HBM 旨在解决标准动态随机存取存储器 (DRAM) 的滞后性能和功能,最初的解决方案是在CPU和GPU上加入更多的 DRAM,并在主板上安装更多的双列直插式内存模块 (DIMM) 插槽,也称为 RAM 插槽。
但问题的根源并不在于内存本身,而在于总线。标准 DRAM 总线为 4 至 32 位宽。HBM 总线为 1,024 位宽;根据 AMD 公司副总裁兼产品 CTO 以及 HBM 内存的联合开发人员 Joe Macri 的说法,其宽度高达 128 倍。
除了增加总线以提高带宽外,HBM 技术还通过堆叠缩小了内存芯片的尺寸。因此,与最初设计用于替代的图形双倍数据速率 (GDDR) 内存相比,HBM 芯片很小。1GB GDDR 内存芯片占用 672 平方毫米,而 1GB HBM仅占 35 平方毫米。
HBM 堆叠高达 12 层,并通过称为“硅通孔”(TSV) 的互连技术进行连接。TSV 贯穿 HBM 芯片层,就像电梯穿过建筑物一样,大大减少了数据传输需要的时间。
由于 HBM 位于 CPU 或 GPU 旁边的基板上,因此在 CPU/GPU 和内存之间移动数据所需的功率更少,且CPU 和 HBM 直接相互通信,无需 DIMM 。
Joe Macri表示,HBM设计的想法不是变得非常狭窄和非常快,而是变得非常宽和非常慢。
Nvidia加速计算产品管理高级总监 Paresh Kharya 表示,标准的 DRAM 不太适合 HPC 使用,虽然 DDR 内存可以接近 HBM 内存的性能,但在能效方面必须拥有很多的 DIMM,因此它不是最佳的选择。
谁在用 HBM ?
第一个将 HBM 用于 HPC 的供应商是 Fujitsu,其基于 Arm 的 A64FX 处理器专为 HPC 任务而设计。由 A64FX 驱动的 Fugaku 超级计算机在 2020 年超级计算机 500 强名单中首次亮相,此后一直保持在该位置。
Nvidia 在其即将推出的Hopper GPU上使用 HBM3 ,而即将推出的Grace CPU使用 LPDDR5X 技术,这是一种 DDR 衍生产品。AMD 在其 Instinct MI250X 加速器(基于其 GPU 技术)上使用 HBM2E,而英特尔计划在某些 Sapphire Rapids 一代至强服务器处理器以及企业用 Ponte Vecchio GPU 加速器上使用 HBM。
HBM 会被用于主流应用吗?
前沿的技术进入主流,都需要一定的时间。液体冷却最初是一个边缘概念,目的是挖掘 CPU 更多的性能,供游戏玩家使用。目前,每家服务器供应商都为其处理器提供液体冷却技术,尤其是 AI 处理器。
那么HBM内存能否成为主流?Macri 估计 HBM 和 DDR5 在相同容量下的价格差异超过 2 比 1。换句话说,1 GB 的 HBM 成本是 1 GB DDR5 的两倍。因此,他的理由是,如果企业要为内存支付溢价,那么他们将希望获得投资回报。Macri表示,性能是真正提高 TCO 的最佳方式,因此如果企业想要获得双倍性能,那么必须将 TCO 提高一倍。
Futurum Research 的首席分析师 Daniel Newman 认为 ,HBM 不会成为主流有两个原因,首先是成本,如果成本很高,那么它就不会在主流的市场中广泛使用。此外,发热量也是阻碍其普及的另一个主要因素,因为除了需要为 CPU 芯片进行冷却之外,还要为五个或更多内存芯片共享同一个冷却器,这意味着集成HBM的处理器要消耗大量功率,因此每个使用 HBM 的处理器都必须具有非凡的热量管理能力。
当然,企业如果想要为 AI 和 HPC 部署加速器,则期望在采购和运营方面的结果和成本相匹配。
HBM 会要求重写应用程序吗?
关于HPC 和 AI 是否会自动利用 HBM 内存的全部性能,还是需要重新架构,也是大家普遍关注的问题。IT 专家们表示,这完全取决于您第一次构建应用程序的方式。
Paresh Kharya 表示,应用程序开发人员通常会绕过系统所能提供的限制。因此,有时必须重新设计或更新您的应用程序以考虑可用的新功能。当然,如果现有的应用程序可以解决各种限制,例如内存或延迟,那么开发人员将不得不重新设计或更新他们的应用程序以考虑可用的新功能,因此这通常适用于任何新的计算架构出现。
Macri 表示,如果应用程序受内存带宽限制,那么它会运行得更快而无需重写。如果它受内存延迟限制,那么它就不会更快,需要重写此应用程序以删除导致其受延迟限制的依赖项。此外,如果系统同时加载了许多应用程序,那么即使应用程序受延迟限制,HBM 系统也可能具有更好的性能,这是因为 HBM 的加载延迟会更低。
HBM 是否需要从 CPU 转移到 GPU?
还是有一个问题是关于处理器架构。
Objective Analysis 的首席分析师 Jim Handy 指出,HBM 与单指令多数据 (SIMD) 处理器一起使用,这些处理器的编程方式与普通服务器处理器完全不同。X86 和 Arm 不是 SIMD,但 GPU 是。
Jim Handy 表示,任何已经在普通处理器上运行的程序都必须重新配置和重新编译才能利用 SIMD 架构。因此,改变这种方式的不是 HBM,而是处理器类型。
HBM 技术不断进步
目前市场上的 HBM 版本是 HBM2E,但在上个月,JEDEC 发布了 HBM3 的最终规格。在相同的工作电压水平下,HBM3 的运行温度低于 HBM2E。
HBM3 的每针数据速率也比 HBM2 提高了一倍,数据速率高达 6.4Gb/s。它还将独立通道的数量从 8 个增加到 16 个,并且还有其他性能增强。
从 Nvidia 的 Hopper GPU 开始,所有主要的内存厂商——SK 海力士、三星和美光等都在开发 HBM3,产品将在今年慢慢开始上市。
目前,HBM 的使用仅仅停留在高性能的使用案例上。