人工智能技术在驱动企业创新发展的同时,也对算力提出了更高的要求。尤其是随着生成式AI的出现,不但对CPU、GPU性能提出了更高的需求,也对存储性能的要求越来越高。在高算力、高带宽的需求下,如何解决存储的性能瓶颈?为此,高带宽存储器(HBM)走进了人们的视野。
近期,英伟达推出的新一代图形处理器中,便搭载了HBM3e内存,使得容量、带宽和性能得到全面提升,在让各个企业看到了高带宽存储器(HBM)的价值同时,也使得三星、海力士、美光等存储企业加大了对高带宽存储器(HBM)的投入。
什么是高带宽存储器(HBM)?
高带宽存储器,简称HBM,即High Bandwidth Memory,是一种具备高性能、高容量的存储芯片,被广泛应用于高性能计算、数据中心等领域。
我们知道,DRAM(动态随机存储器)由于具备较高的读写速度、随机访问等优点,被广泛应用于服务器和计算机的内存条等。HBM与DRAM的区别在于,它采用了3D堆叠技术,将多个DRAM芯片堆叠在一起,从而实现了更高容量,更大的存储带宽和更低的延迟。
自2013年第一代HBM诞生以来,随着技术的不断发展,HBM也经历了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序迭代,最新的HBM3E是HBM3的扩展版本,速率达到了8Gbps。
高带宽存储器(HBM)有哪些优势?
HBM最初并不是以存储性能作为开发目的,而是以提高存储容量为主。通过利用3D芯片堆叠技术将多个DRAM芯片堆叠在一起,从而提供更大的存储容量。
随着AI技术的发展,其对GPU性能和功能提出了更高的要求。在此背景之下,GPU的功能越来越强,需要更加快速地从内存中访问数据,以此来缩短应用处理的时间。特别是在生成式AI出现之后,大型语言模型 (LLM)需要重复访问数十亿甚至数万亿个参数,如此庞大且频繁的数据处理,往往需要数小时甚至数天的时间,这显然无法满足要求。于是,传输速度也成了HBM的核心参数。
实际上,目前HBM大都采用了标准化设计:HBM 存储器堆栈通过微凸块连接到 HBM 堆栈中的硅通孔(TSV 或连接孔),并与放置在基础封装层上的中间件相连,中间件上还安装有处理器,提供 HBM 到处理器的连接。与此同时,HBM通过控制芯片对多个DRAM芯片进行控制,使它们能够同时读取或写入数据,从而提高了存储带宽和数据处理能力。
不难看出,这样的设计与普通的DRAM相比,能够同时垂直连接多个DRAM并显著提升数据处理速度,这也是HBM具备更高存储带宽和更低延迟的关键所在。
可以说,与DRAM相比,HBM不但拥有容量上的优势,能够同时存储更多的数据,而且拥有更高的带宽,能够大幅提升数据的读写速度。这也是英伟达在新一代图形处理器中采用HBM的根本原因。
高带宽存储器(HBM)的最新技术趋势
虽然HBM已经演变到了第五代,甚至第六代HBM4技术也初露头角,但时至今日,HBM3e(第五代)仍旧没有完全应用于产品当中。
作为HBM(高带宽存储器)的扩展版本,HBM3e采用了垂直互连多个DRAM芯片的设计。相较于传统的DRAM产品,HBM3E在数据处理速度上显著提高。根据SK海力士公布的数据,HBM3E最高每秒可处理1.15TB的数据,相当于在一秒钟内即可处理230多部5GB大小的全高清电影。这种高性能的数据处理能力使得HBM3E成为人工智能内存产品当中的关键规格。
今年7月,美光提供了8hi(24GB)NVIDIA样品、SK海力士也于今年8月中提供8hi(24GB)样品,三星于今年10月初提供8hi(24GB)样品。预期2024年第一季完成HBM3e产品验证。
从HBM1到HBM3e都保留了相同的1024位(每个堆栈)接口,即具有以相对适中的时钟速度运行的超宽接口,为了提高内存传输速率,预计下一代HBM4可能需要对高带宽内存技术进行更实质性的改变,即从更宽的2048位内存接口开始。
相关报道显示,HBM4在DRAM堆叠方面,2048位内存接口需要大幅增加内存堆叠的硅通孔数量。同时,外部芯片接口需要将凸块间距缩小到远小于55微米,而HBM3目前的凸块总数(约)为3982个,因此需要大幅增加微型凸块的总数。
除此之外,业界还将打算在一个模块中堆叠多达16个内存模块,即所谓的16-Hi堆叠,这将使得内存供应商能够显著提高其HBM堆叠的容量。当然,HBM4将面临着更大的技术挑战,芯片的生产难度也将更大。
为此,台积电就曾表示,由于HBM4不是将速度提高了一倍,而是将接口引脚增加了一倍。因此台积电要与所有三家合作伙伴合作,确保三星、美光、海力士等的HBM4(采用台积电的先进封装方法)符合标准,并确保RDL或interposer或任何介于两者之间的产品都能支持HBM4的布局和速度。
不同厂商的HBM技术发展路径
虽然同为HBM技术,但芯片厂商的发展路径却不相同。
三星正在研究在中间件中使用光子技术,光子通过链路的速度比电子编码的比特更快,而且耗电量更低。除此之外,三星还将HBM堆栈更直接地连接到处理器,这意味着随着时间的推移,HBM 堆栈可以升级,以提供更大的容量,但这需要一个涵盖该领域的行业标准才有可能实现。
海力士正在研究HBM与逻辑处理器直接连接的概念,在混合使用的半导体中将GPU芯片与 HBM芯片一起制造。这个想法涉及内存和逻辑制造商共同设计芯片,然后由台积电(TSMC)等晶圆厂运营商制造。
美光目前正在生产HBM3e gen-2内存,采用8层垂直堆叠的24GB芯片。12层垂直堆叠36GB芯片计划于2024年开始出样。此外,美光正与半导体代工运营商台积电合作,将其 gen-2 HBM3e 用于人工智能和 HPC 设计应用。
至于谁家的技术更先进,目前尚且无法判断。不过可以确定的是,随着HBM技术的不断成熟,将会为人工智能带来更强的算力支撑。