进入生成式AI时代,CPU、GPU、DPU等芯片的算力成为越来越多企业用户关注的重点。的确,面对动辄万亿规模的参数,需要更强大的算力才能满足模型训练要求。不过,存储作为数据中心中的核心IT基础设施,其性能表现也将对生成式AI带来重要的影响。接下来,笔者从生成式AI给存储带来的诸多挑战谈起,详细介绍一下AI时代数据存储的关键技术。
一、AI给数据存储带来的挑战
笔者认为,生成式AI主要给数据存储带来了性能、容量、能耗、价格等方面的挑战。
一是存储性能挑战。在生成式AI模型的训练过程中,由于需要处理大量的数据,不仅对CPU、GPU等性能提出了更高的要求,对存储系统同样也提出了更高的要求。因此,为了提高训练效率,将数据更高效地传输给CPU与GPU,不仅需要存储本身具有更高的性能,而且还需要更宽的数据传输总线,以提高数据读写性能,降低延迟。
二是存储容量挑战。存储庞大的数据量,对存储的空间提出了更高的要求,这就需要企业部署更加灵活的存储解决方案,持续满足生成式AI对于数据存储的需求。
三是能耗和空间挑战。由于需要更高密度的存储解决方案,因此生成式AI还将造成数据存储功耗的提高,以及存储空间的挑战,这将会给数据中心带来整体运营成本的提高。
二、满足AI需求的数据存储技术
面对AI给数据存储带来的挑战,CXL、HBM、SSD等技术也在不断演进,以更高的带宽、更强的性能和更高的容量,满足AI应用下的数据存储需求。
1)CXL(高速互连技术)
CXL的全称为Compute Express Link,是一种高速互连技术,它以更高的带宽解决了数据传输难题,为人工智能提供了更快、更灵活的数据传输解决方案。
一方面,CXL实现了设备到CPU之间的互联,实现了存储计算分离。另一方面,CXL允许CPU以低延迟和高带宽访问连接设备上更大的内存池,从而扩展内存,以此来增加AI/ML应用程序的内存容量和性能。
与PCIe相比,CXL在带宽方面有着更强的性能表现。其中,CXL2.0支持32GT/s的数据传输速率,CXL3.支持64GT/s的数据传输速率,这使得CXL能够更有效地满足处理大规模数据和高性能计算工作负载的需求。由于CXL能够在PCIe 或CXL模式下运行,利用CXL灵活的处理器端口可以在CIe5.0中实现32GT/s的数据速率,在PCIe6.0 中实现高达 64GT/s的数据速率,为人工智能应用提供了更加灵活的功能。
除此之外,CXL允许不同设备之间共享内存资源,能够更好地提高内存利用率,降低系统成本。另外,CXL支持多种设备之间的互连,包括CPU、GPU、FPGA和存储设备等,这为构建异构计算环境提供了便利。
作为一个开放的行业标准组织,CXL旨在创建技术规范,促进数据中心加速器和其他高速改进的开放生态系统。目前 CXL 已经发布了CXL 1.0、CXL 2.0和CXL 3.0三个版本。其中,最新的CXL 3.0版本基于PCIe 6.0开发,支持比CXL 2.0更高的带宽和更低的延迟,并增加了设备热插拔、电源管理和错误处理等新功能。
正是由于高带宽、低延迟、内存共享、灵活性、兼容性等方面的优势,CXL为高性能计算领域带来了更好的选择,能够很好地满足生成式AI应用中数据读写的带宽要求。
2)HBM(高带宽存储器)
HBM,即High Bandwidth Memory,是一种具备高性能、高容量的存储芯片,被广泛应用于高性能计算、数据中心等领域。
HBM最初并不是以存储性能作为开发目的,而是以提高存储容量为主。通过利用3D芯片堆叠技术将多个DRAM芯片堆叠在一起,从而提供更大的存储容量。随着技术的发展,AI对GPU性能和功能提出了更高的要求。在此背景之下,GPU的功能越来越强,需要更加快速地从内存中访问数据,以此来缩短应用处理的时间。特别是在生成式AI出现之后,大型语言模型 (LLM)需要重复访问数十亿甚至数万亿个参数,如此庞大且频繁地数据处理,往往需要数小时甚至数天的时间,这显然无法满足要求。于是,传输速度也成了HBM的核心参数。
与DRAM相比,HBM不但拥有容量上的优势,能够同时存储更多的数据,而且拥有更高的带宽,能够大幅提升数据的读写速度。自2013年第一代HBM诞生以来,随着技术的不断发展,HBM也经历了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序迭代,最新的HBM3E是HBM3的扩展版本,速率达到了8Gbps。
作为HBM(高带宽存储器)的扩展版本,HBM3e采用了垂直互连多个DRAM芯片的设计。相较于传统的DRAM产品,HBM3E在数据处理速度上显著提高。根据SK海力士公布的数据,HBM3E最高每秒可处理1.15TB的数据,相当于在一秒钟内即可处理230多部5GB大小的全高清电影。这种高性能的数据处理能力使得HBM3E成为人工智能内存产品当中的关键规格。
虽然同为HBM技术,但芯片厂商的发展路径却不相同。三星正在研究在中间件中使用光子技术,光子通过链路的速度比电子编码的比特更快,而且耗电量更低。海力士正在研究 HBM与逻辑处理器直接连接的概念,在混合使用的半导体中将 GPU 芯片与 HBM 芯片一起制造。美光目前正在生产 HBM3e gen-2内存,采用8层垂直堆叠的24GB芯片。12层垂直堆叠36GB芯片计划于2024年开始出样。
至于谁家的技术更先进,目前尚且无法判断。不过可以确认,随着HBM技术的不断成熟,将会为人工智能带来更强的算力支撑。
3)QLC(4bit存储单元技术)
QLC是一种四位存储单元技术,也就是说每个存储单元可以存储4个比特的数据。
从最初的SLC、MLC,再到目前的TLC、QLC,闪存颗粒技术在不断发展,存储容量也在不断提升。
目前,在3D NAND技术的突破之下,采用QLC技术的SSD容量大幅增长。例如,Solidigm采用192层3D NAND的技术QLC SSD已经达到61TB,SK海力士的192层QLC闪存不仅容量达到了61TB,而且读取速度达到了7000MB/s,写入速度也有3300MB/s。
虽然很多用户对于QLC的性能和寿命提出了质疑,但在笔者看来,随着数据量的爆炸式增加,对存储容量的需求越来越高。而QLC作为存储密度更高的技术,显然更为适合应对大规模数据存储的需求,不但能够存储更多的数据量,而且还能够有效地降低存储的功耗和占地空间,为企业提供更好的TCO。最后,随着技术的不断发展,厂商也在通过新的算法来不断提高QLC的寿命,使其适合更多的应用场景。
因此,虽然QLC在性能和寿命方面不如TLC,但从目前的发展趋势来看,QLC将会成为主流。
总结:
生成式AI不仅对CPU、GPU等算力提出了更高的要求,也正在加速数据存储技术的变革。不难发现,除了闪存存储技术在不断突破之外,CPU与存储、GPU与存储之间的数据传输技术也得到了快速发展。可以说,随着以闪存为代表的数据存储技术在数据中心的落地,存储已经不再成为影响生成式AI应用的主要瓶颈。