近年来,数字化转型成为企业业务升级必备手段,其实,“数字化转型”概念提出的十年之期,随着5G、大数据、云计算、人工智能、物联网等核心技术已在各行各业开花结果,边缘计算、机器学习、数字孪生等更新的技术层出不穷,重塑商业模式,颠覆生活体验,加速万物智能。追本溯源,一切变革源于数据亦由数据推动。
日前,IDC的一项报告显示:2021年全球大数据市场的IT总投资规模为2176.1亿美元,到2026年,这项数据将增至4491.1亿美元,五年预测期内(2021-2026)实现约15.6%的复合增长率。
大数据市场的高速成长,客观地反映出企业用户对于数据关注点的进步:他们正在从以往的数据收集、存储与管理,转向对于数据的分析和价值的发掘,从而实现让数据真正发挥价值,用虚拟的数字来优化真实现实的目的,最终完成其“数字”应用的完整流程。
万物智能时代新趋势
数字化转型进入2.0时代,企业投入不断增加,期待单点技术聚合成体系并发挥集成效应,进一步增加利润、激发创新、提高员工生产力,提高运营效率并改善客户体验。
尽管AI时刻在推动存储发展,但是想要进一步激活存储潜力,仍需要解决AI场景下,存储容易面临的挑战:
海量小文件,由于训练任务需要的文件数量都在几亿到十几亿的量级,所以存储需要能承载几十亿甚至上百亿的文件数量。同时,由于很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件基本上都是在几KB到几MB之间。
读多写少,在大部分场景中,训练任务只读取文件,中间很少产生中间数据,即使产生了少量的中间数据,也是会选择写在本地,很少选择写回存储集群。
目录热点,由于训练时,业务部门的数据组织方式不可控,很有可能用户会将大量文件存放在同一个目录,容易导致多个计算节点在训练过程中,会同时读取这一批数据,这个目录所在的元数据节点就会成为热点。
“工欲善其事,必先利其器”,要想发挥出 AI 人工智能技术的最大威力,解决存储挑战就成为企业构建强有力的 IT 基础设施的重要一环。如果没有高性能的存储,就会导致整个系统性能出现延迟的情况。
因此 AI 对存储性能的要求是很苛刻的,企业希望存储系统能满足高吞吐量和低延时的需求,让更多的数据能更及时地传输和执行,那么对于这个愿望应该如何实现呢?
AI驱动存储发展
众所周知,大数据、AI、ML等概念都不是最近出现的,只是当时在数字时代,算力的局限不仅限制了数据的产生,也限制了AI和ML真正价值的发挥。直到云计算让算力不再具有任何上限,用户对于数据的获取也开始变得更加广泛,AI和ML才真正成为了最有效的数据分析工具。
在企业为AI平台选择存储设备之前,必须首先考虑以下几点:
1. 成本
AI数据存储设备的价格对企业来说是一个关键因素。显然,高管层和那些参与采购决策的人会希望存储尽可能具有成本效益,在许多情况下,这将影响组织的产品选择和策略。
2. 可伸缩性
如上文所说,在创建机器学习或AI模型的过程中,收集、存储和处理大量数据是非常必要的。机器学习算法要求源数据呈指数增长,才能实现精度的线性提高。创建可靠而准确的机器学习模型可能需要数百TB甚至PB的数据,而且这只会随着时间的推移而增加。
存储成本的变化引入了分层存储或使用多种类型的存储来存储数据的概念。例如,对象存储是存储大量不活跃的AI数据的良好目标。当需要处理数据时,可以将数据移动到对象存储中的高性能文件存储集群或节点上,一旦处理完成,就可以将数据移动回来。
3. 性能
AI数据的存储性能有三个方面。首先,可能也是最重要的是延迟,也就是软件处理每个I/O请求的速度。低延迟很重要,因为改善延迟对创建机器学习或AI模型所需的时间有直接影响。复杂的模型开发可能需要数周或数月的时间。通过缩短这个开发周期,组织可以更快地创建和细化模型。在检查延迟能力时,由于对象访问的流特性,对象将引用时间存储为第一个字节,而不是单个I/O请求的延迟。
机器学习数据可以由大量的小文件组成。在这个领域,文件服务器可以提供比对象存储更好的性能。这里需要问AI存储方案供应商的一个关键问题是,在大文件类型和小文件类型上,他们的产品的性能特征会如何变化。
4. 可用性和耐久性
机器学习和AI模型可以长时间连续运行。通过训练开发算法可能需要几天或几周的时间。在此期间,存储系统必须保持启动并持续可用。这意味着任何升级、技术替换或系统扩展都需要在不停机的情况下进行。
在大型系统中,组件故障是常见的。这意味着任何用于AI工作的平台都应该能够从设备(如硬盘或SSD)和节点或服务器故障中恢复。对象存储使用擦除编码在许多节点上广泛分布数据,并最小化组件故障的影响。有一些擦除编码技术可以用在横向扩展文件系统,以提供同等水平的弹性。擦除编码方案的效率非常重要,因为它直接关系到读写I/O的性能,特别是对于小文件而言。
由于多数大规模对象存储都太大,无法定期备份,因此可靠地擦除编码成为AI存储平台的一个基本特性。
5. 公有云
开发机器学习和AI算法需要高性能存储和高性能计算。许多AI系统都是基于GPU的,比如Nvidia DGX,它可以用于开发精确算法所涉及的许多复杂数学计算。
公有云服务提供商已经开始提供GPU加速的虚拟实例,可用于机器学习。在公有云中运行机器学习工具降低了构建机器学习开发基础设施的资本成本,同时提供了扩展开发机器学习模型所需的基础设施的能力。
6. 集成
在本文中,我们将机器学习和AI的数据存储与计算分开来看。构建AI数据存储可能很困难,因为必须考虑存储网络和调优存储以及与机器学习应用程序协同工作的其他因素。
产品的预打包使供应商能够在将产品交付给客户之前测试和优化其产品。如今,有一些存储产品结合了流行的AI软件、计算(如通用CPU和GPU)、网络和存储,以交付一个AI就绪的平台,许多详细的调优工作是在部署这些系统之前完成的。尽管成本可能是个问题,但对许多客户来说,预先打包的系统可以降低采用AI存储的障碍。
写在最后
当前,AI的发展正在加速推动技术设施的进步,数据类型和数据存储需求也在产生变化,或许很难预测未来的存储技术究竟是怎么样的,但是我们可以肯定的是,未来AI将持续驱动存储发展。
随着科技的进步,AI作为新一轮产业变革的核心驱动力,将催生新技术、新产品、新产业、新业态、新模式,实现社会生产力的整体提升。