如何应对生成式AI和大模型应用带来的存储挑战-51CTO.COM

生成式AI和各种大模型应用，对算力提出了更高的要求，CPU+GPU+NPU+DPU的异构计算模式，已经很好地解决了算力瓶颈的问题。不过，生成式AI和各种大模型应用，对存储也提出了更大的挑战。

生成式AI和大模型应用带来的存储挑战

我们知道，大模型有着巨大的参数，对存储的读写性能、访问带宽和存储容量等都提出了更高的要求。具体来看，生成式AI和大模型应用对存储提出了以下挑战：

一是更高的访问带宽。随着AI大模型训练和推理需求的增长，对存储系统的带宽提出了更高的要求，以满足大量数据的快速传输需求。

二是更高的性能和更低的延迟：AI应用需要快速访问和处理数据，因此存储解决方案必须具有更高的性能，以此来降低数据读写延迟，以减少数据访问时间。

三是更高的存储容量：AI模型训练和深度学习应用需要处理的数据量巨大，现在参数已经达到万亿规模，很快就会增长到十亿规模，能力越强需要的参数量就越大，需要的存储容量就越大。因此，存储系统必须提供足够的容量来存储这些数据。

四是高并发访问能力：AI训练通常涉及多个GPU或多个节点并行处理，存储系统需要支持高并发访问，确保数据在存储、CPU、GPU之间快速地进行传输，提高数据处理的效率。

五是扩展性能力：AI技术不断进步，存储系统必须面向未来构建良好的扩展性，以适应数据量快速增长的存储需求，为技术的发展提供有力保障。

六是数据安全与隐私保护：在处理大量敏感数据时，存储系统需要提供高级的数据安全和隐私保护措施，以此来确保数据的绝对安全，并满足数据隐私保护的需求。

七是数据管理与优化：AI应用需要有效的数据管理策略，包括数据的组织、索引和优化，以提高数据访问速度和整体性能。与此同时，降低数据存储和数据管理的复杂度和存储成本，以达到最优的成本效益。

如何应用生成式AI和大模型应用带来的存储难题

面对生成式AI和各种大模型应用的落地，存储系统必须进行变革，积极拥抱创新技术，以此来满足容量、性能、带宽等需求。随着CXL、HBM、3D NAND、PCI-E Gen5等技术的出现，存储墙的问题也将得到有效地解决。

首先，3D NAND可以解决海量数据的存储需求，并提供大模型应用所需的性能。近年来，在3D NAND技术的突破之下，采用QLC技术的SSD容量大幅增长。例如，Solidigm采用192层3D NAND的技术QLC SSD已经达到61TB，SK海力士的192层QLC闪存不仅容量达到了61TB，而且读取速度达到了7000MB/s，写入速度也有3300MB/s。

虽然很多用户对于QLC的性能和寿命提出了质疑，但主控厂商也在通过技术创新，来提高QLC NAND的寿命。例如，联芸科技Agile ECC3技术引入4K LDPC，LDPC软解码能力的提升保障了最恶化情况下的闪存数据可靠性，极大地延长了SSD的使用寿命。

可以说，随着数据量的爆炸式增加，对存储容量的需求越来越高。而QLC作为存储密度更高的技术，显然更为适合应对大规模数据存储的需求，不但能够存储更多的数据量，而且还能够有效地降低存储的功耗和占地空间，为企业提供更好的TCO。

目前，Solidigm采用四层单元最大容量为61.44TB的SSD已经上市销售，美光基于232层技术的6500系列30TB SSD也已经应用于数据中心当中。 SK hynix除了计划推出60TB eSSD之外，还预计未来SSD会从36TB发展到128TB。存储容量的增加，将会进一步拉低SSD成品的价格，进一步加速了机械硬盘的淘汰速度（目前最大的机械硬盘容量为24TB）。

其次，CXL（高速互连技术）的发展，也解决了数据传输的难题，为大模型应用提供了更快、更加灵活的解决方案。作为一种高速互连技术，它以更高的带宽解决了数据传输难题，为人工智能提供了更快、更灵活的数据传输解决方案。CXL一方面实现了设备到CPU之间的互联，实现了存储计算分离。另一方面，CXL允许CPU以低延迟和高带宽访问连接设备上更大的内存池，从而扩展内存，以此来增加AI/ML应用程序的内存容量和性能。

与PCIe相比，CXL在带宽方面有着更强的性能表现。其中，CXL2.0支持32GT/s的数据传输速率，CXL3.支持64GT/s的数据传输速率，这使得CXL能够更有效地满足处理大规模数据和高性能计算工作负载的需求。由于CXL能够在PCIe或CXL模式下运行，利用CXL灵活的处理器端口可以在CIe5.0中实现32GT/s的数据速率，在PCIe6.0中实现高达 64GT/s的数据速率，为人工智能应用提供了更加灵活的功能。

除此之外，CXL允许不同设备之间共享内存资源，能够更好地提高内存利用率，降低系统成本。另外，CXL支持多种设备之间的互连，包括CPU、GPU、FPGA和存储设备等，这为构建异构计算环境提供了便利。

作为一个开放的行业标准组织，CXL旨在创建技术规范，促进数据中心加速器和其他高速改进的开放生态系统。目前 CXL 已经发布了CXL 1.0、CXL 2.0和CXL 3.0三个版本。其中，最新的CXL 3.0版本基于PCIe 6.0开发，支持比CXL 2.0更高的带宽和更低的延迟，并增加了设备热插拔、电源管理和错误处理等新功能。

目前，英特尔至强CPU从第四代至强可扩展处理器开始支持CXL，并且在后续每代至强 CPU中都支持了最新的CXL协议，并提供了Flat 1LM、Heterogenous interleaving、2LM等多种创新内存应用模式。阿里云推出了业界首个基于CXL Switch内存池的业务系统解决方案，通过CXL Switch Box系统，提供大容量、高性能、灵活性强的池化内存系统。

浪潮信息在CXL2.0阶段持续进行CXL交换技术研究，提出大规模内存资源解耦重构技术方案，开发完成内存池化原型系统，以CXL交换单元为核心解耦重构服务器架构，软件定义实现内存资源灵活调用，实现多主机内存资源共享，单系统最大可扩展16TB池化内存资源，相比传统服务器内存容量和带宽均扩大2倍，满足AI计算、云场景、内存数据库多场景应用需求。

正是由于高带宽、低延迟、内存共享、灵活性、兼容性等方面的优势，CXL为高性能计算领域带来了更好的选择，能够很好地满足生成式AI应用中数据读写的带宽要求。

最后，HBM也解决了DRAM容量小、传输慢的问题，为GPU带来了更高的容量和更快的数据传输。与DRAM相比，HBM不但拥有容量上的优势，能够同时存储更多的数据，而且拥有更高的带宽，能够大幅提升数据的读写速度。自2013年第一代HBM诞生以来，随着技术的不断发展，HBM也经历了HBM2（第二代）、HBM2E（第三代）、HBM3（第四代）、HBM3E（第五代）的顺序迭代，最新的HBM3E是HBM3的扩展版本，速率达到了8Gbps。

作为HBM（高带宽存储器）的扩展版本，HBM3e采用了垂直互连多个DRAM芯片的设计。相较于传统的DRAM产品，HBM3E在数据处理速度上显著提高。根据SK海力士公布的数据，HBM3E最高每秒可处理1.15TB的数据，相当于在一秒钟内即可处理230多部5GB大小的全高清电影。这种高性能的数据处理能力使得HBM3E成为人工智能内存产品当中的关键规格。

写在最后：

技术的发展正在推动着存储技术的变革，随着QLC、CXL和HBM等先进技术的不断突破和发展，生成式AI和大模型应用面临的存储墙问题将迎刃而解！