HBM技术有何优势？详解高带宽存储器-51CTO.COM

人工智能技术在驱动企业创新发展的同时，也对算力提出了更高的要求。尤其是随着生成式AI的出现，不但对CPU、GPU性能提出了更高的需求，也对存储性能的要求越来越高。在高算力、高带宽的需求下，如何解决存储的性能瓶颈？为此，高带宽存储器（HBM）走进了人们的视野。

近期，英伟达推出的新一代图形处理器中，便搭载了HBM3e内存，使得容量、带宽和性能得到全面提升，在让各个企业看到了高带宽存储器（HBM）的价值同时，也使得三星、海力士、美光等存储企业加大了对高带宽存储器（HBM）的投入。

什么是高带宽存储器（HBM）？

高带宽存储器，简称HBM，即High Bandwidth Memory，是一种具备高性能、高容量的存储芯片，被广泛应用于高性能计算、数据中心等领域。

我们知道，DRAM（动态随机存储器）由于具备较高的读写速度、随机访问等优点，被广泛应用于服务器和计算机的内存条等。HBM与DRAM的区别在于，它采用了3D堆叠技术，将多个DRAM芯片堆叠在一起，从而实现了更高容量，更大的存储带宽和更低的延迟。

自2013年第一代HBM诞生以来，随着技术的不断发展，HBM也经历了HBM2（第二代）、HBM2E（第三代）、HBM3（第四代）、HBM3E（第五代）的顺序迭代，最新的HBM3E是HBM3的扩展版本，速率达到了8Gbps。

高带宽存储器（HBM）有哪些优势？

HBM最初并不是以存储性能作为开发目的，而是以提高存储容量为主。通过利用3D芯片堆叠技术将多个DRAM芯片堆叠在一起，从而提供更大的存储容量。

随着AI技术的发展，其对GPU性能和功能提出了更高的要求。在此背景之下，GPU的功能越来越强，需要更加快速地从内存中访问数据，以此来缩短应用处理的时间。特别是在生成式AI出现之后，大型语言模型 (LLM）需要重复访问数十亿甚至数万亿个参数，如此庞大且频繁的数据处理，往往需要数小时甚至数天的时间，这显然无法满足要求。于是，传输速度也成了HBM的核心参数。

实际上，目前HBM大都采用了标准化设计：HBM 存储器堆栈通过微凸块连接到 HBM 堆栈中的硅通孔（TSV 或连接孔），并与放置在基础封装层上的中间件相连，中间件上还安装有处理器，提供 HBM 到处理器的连接。与此同时，HBM通过控制芯片对多个DRAM芯片进行控制，使它们能够同时读取或写入数据，从而提高了存储带宽和数据处理能力。

不难看出，这样的设计与普通的DRAM相比，能够同时垂直连接多个DRAM并显著提升数据处理速度，这也是HBM具备更高存储带宽和更低延迟的关键所在。

可以说，与DRAM相比，HBM不但拥有容量上的优势，能够同时存储更多的数据，而且拥有更高的带宽，能够大幅提升数据的读写速度。这也是英伟达在新一代图形处理器中采用HBM的根本原因。

高带宽存储器（HBM）的最新技术趋势

虽然HBM已经演变到了第五代，甚至第六代HBM4技术也初露头角，但时至今日，HBM3e（第五代）仍旧没有完全应用于产品当中。

作为HBM（高带宽存储器）的扩展版本，HBM3e采用了垂直互连多个DRAM芯片的设计。相较于传统的DRAM产品，HBM3E在数据处理速度上显著提高。根据SK海力士公布的数据，HBM3E最高每秒可处理1.15TB的数据，相当于在一秒钟内即可处理230多部5GB大小的全高清电影。这种高性能的数据处理能力使得HBM3E成为人工智能内存产品当中的关键规格。

今年7月，美光提供了8hi（24GB）NVIDIA样品、SK海力士也于今年8月中提供8hi（24GB）样品，三星于今年10月初提供8hi（24GB）样品。预期2024年第一季完成HBM3e产品验证。

从HBM1到HBM3e都保留了相同的1024位（每个堆栈）接口，即具有以相对适中的时钟速度运行的超宽接口，为了提高内存传输速率，预计下一代HBM4可能需要对高带宽内存技术进行更实质性的改变，即从更宽的2048位内存接口开始。

相关报道显示，HBM4在DRAM堆叠方面，2048位内存接口需要大幅增加内存堆叠的硅通孔数量。同时，外部芯片接口需要将凸块间距缩小到远小于55微米，而HBM3目前的凸块总数（约）为3982个，因此需要大幅增加微型凸块的总数。

除此之外，业界还将打算在一个模块中堆叠多达16个内存模块，即所谓的16-Hi堆叠，这将使得内存供应商能够显著提高其HBM堆叠的容量。当然，HBM4将面临着更大的技术挑战，芯片的生产难度也将更大。

为此，台积电就曾表示，由于HBM4不是将速度提高了一倍，而是将接口引脚增加了一倍。因此台积电要与所有三家合作伙伴合作，确保三星、美光、海力士等的HBM4（采用台积电的先进封装方法）符合标准，并确保RDL或interposer或任何介于两者之间的产品都能支持HBM4的布局和速度。

不同厂商的HBM技术发展路径

虽然同为HBM技术，但芯片厂商的发展路径却不相同。

三星正在研究在中间件中使用光子技术，光子通过链路的速度比电子编码的比特更快，而且耗电量更低。除此之外，三星还将HBM堆栈更直接地连接到处理器，这意味着随着时间的推移，HBM 堆栈可以升级，以提供更大的容量，但这需要一个涵盖该领域的行业标准才有可能实现。

海力士正在研究HBM与逻辑处理器直接连接的概念，在混合使用的半导体中将GPU芯片与 HBM芯片一起制造。这个想法涉及内存和逻辑制造商共同设计芯片，然后由台积电（TSMC）等晶圆厂运营商制造。

美光目前正在生产HBM3e gen-2内存，采用8层垂直堆叠的24GB芯片。12层垂直堆叠36GB芯片计划于2024年开始出样。此外，美光正与半导体代工运营商台积电合作，将其 gen-2 HBM3e 用于人工智能和 HPC 设计应用。

至于谁家的技术更先进，目前尚且无法判断。不过可以确定的是，随着HBM技术的不断成熟，将会为人工智能带来更强的算力支撑。