AI大模型已超出人类想象的速度,将我们带入智能世界。算力、算法、数据构成了AI的三要素。算力、算法是AI大模型时代的工具,数据的规模和质量才真正决定了AI智能的高度。数据存储将信息变为语料库、知识库,正在和计算一起成为最重要的AI大模型基础设施。
本文来自“《迈向智能世界白皮书2023版(合集)》”。高可靠、高性能、共享的数据存储,成为以Oracle为代表的数据库的最佳数据基础设施。面向未来,对企业数据存储进行了如下展望:
- AI大模型将AI带入新的发展阶段。AI大模型需要更高效的海量原始数据收集和预处理,更高性能的训练数据加载和模型数据保存,以及更加及时和精准的行业推理知识库。以近存计算、向量存储为代表的AI数据新范式正在蓬勃发展。
- 大数据应用经历了历史信息统计、未来趋势预测阶段,正在进入辅助实时精准决策、智能决策阶段。以近存计算为代表的数据新范式,将大幅提升湖仓一体大数据平台的分析效率。
- 以开源为基础的分布式数据库,正在承担越来越关键的企业应用,新的分布式数据库+共享存储的高性能、高可靠架构正在形成。
- 多云成为企业数据中心新常态,企业自建数据中心和公有云形成有效互补。云计算的建设模式从封闭全栈走向开放解耦,从而实现应用多云部署、数据/资源集中共享。
- AI大模型应用聚集海量企业私域数据,数据安全风险剧增。构建包括存储内生安全在内的完整数据安全体系,迫在眉睫。
- AI大模型推动数据中心的计算、存储架构从以CPU为中心走向以数据为中心,新的系统架构、生态正在重新构建。
- AI技术正在越来越多地融入在数据存储产品及其管理,从而大幅改善数据基础设施的SLA水平。
1、AI大模型
AI的发展远超过预期,2022年末,当OpenAI发布ChatGPT时,没有人能想到,AI大模型接下来将为人类社会带来历史性变革。
简单来说,AI大模型时代的到来,存储作为数据的关键载体,需要在三个方面演进,即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上,需要满足百GBps级的带宽和千万级IOPS,实现10倍以上的性能提升。
企业在使用AI大模型、HPC、大数据时均需要丰富的原始数据,它们的来源是相同的,均是企业所积累的生产交易数据、科研实验数据和用户行为数据。因此,大模型采用和HPC、大数据同源的建设模式是最经济高效的,实现一份数据在不同环境中协同工作。
全闪存存储将带来性能大幅提升,加快AI大模型开发落地的速度;以数据为中心的架构可以带来硬件资源的解耦与互联,加速数据的按需流动;数据编织、向量存储与近存计算等新兴数据处理技术,将最大程度降低企业整合数据、使用数据的门槛,满足资源的高效利用,降低行业接入AI大模型的难度;存储内生安全体系将保护企业核心私密数据资产,让企业更加放心地使用AI大模型。
2、大数据
大数据应用的发展可以描述为传统数据应用、预测分析和主动决策三个阶段。
传统数据仓库时代:企业通过数据仓库构建面向主题的、可随时间变化的数据集合,从而实现对历史数据进行准确的描述和统计,为分析决策服务,但仅能处理TB级结构化数据。
传统数据湖时代:企业使用Hadoop技术构建数据湖,处理结构化、半结构化数据,实现基于历史数据预测未来的发展趋势。这个阶段形成了数据湖和数据仓库并存的“烟囱”架构,数据需要在数据湖和数据仓库之间流转,因而无法实现实时决策、主动决策。
湖仓一体时代:企业开始尝试从IT堆栈优化上寻找实时决策、主动决策解决方案,将大数据平台快速推向湖仓一体的新架构。其核心举措是与存储厂商联合创新,将大数据IT堆栈存算解耦,以数据湖存储实现数据湖和数据仓库共享同一份数据,无需在数据湖和数据仓库间进行数据流转,从而实现实时、主动决策。
3、分布式数据库
开源数据库MySQL和PostgreSQL占据全球数据库市场格局TOP2。开源数据库正在重构企业核心系统。同时为确保业务平稳运行,分布式数据库存算分离架构正在成为事实标准。
目前,全球主要银行均已通过存算分离架构分布式数据库建设新核心系统,亚马逊Aurora、阿里PolarDB、华为GaussDB、腾讯TDSQL等主要新型数据库厂商均已将其架构转向存算分离,存算分离架构已经成为分布式数据库建设的事实标准。
4、云原生
企业云计算基础设施已经从单云走向多云。不论哪一朵云都无法同时满足企业所有对应用与成本的诉求。因此,89%的企业选择建设多个公有云和私有云并存的多云IT架构。
目前基础设施面向多云打造的关键能力大致可分为两类。第一类是使能数据跨云流动,如华为和NetApp存储支持数据跨云分级、跨云备份能力,使数据始终使用性价比最高的存储服务;另一类是数据跨云管理,让用户通过全局数据视图把握数据总体情况,并将数据调度到产生价值最大的应用中。
企业采用开放解耦架构建设,让硬件资源可被多个云共享,数据可在多个云间按需流动,方可真正发挥多云架构优势。
从硬件、平台到应用,最优的服务往往来自不同供应商,因此通过开放解耦的建设方式企业能搭建最优的IT堆栈。以AI为例。当前市面上最为火热的AI大模型供应商,如openAI、Meta等,其硬件基础设施能力远不如NVIDIA、DDN、华为等IT巨头。没有任何一个厂商能够提供端到端的最优AI训练/推理方案,因此企业在搭建自己的AI训练/推理集群时,会选择开放解耦的架构,选择最优的硬件和训练/推理模型。
5、非结构化数据
随着5G、云计算、大数据、AI、高性能数据分析(HPDA)等新技术、新应用的蓬勃发展,企业非结构化数据快速增长,如视频,语音,图片,文件等,容量正在从PB到EB级跨越。例如,一台基因测序仪每年产生数据达到8.5PB,某运营商集团每天平均处理数据量达到15PB,一颗遥感卫星每年采集数据量可以达到18PB,一辆自动驾驶训练车每年产生训练数据达到180PB。
首先需要让数据“存得下”:以最低的成本、最小的机房空间、最低的功耗存下更多的数据。
其次要让数据在都要“流得动”:数据中心间和数据中心内的数据需要根据策略按需高效流动。
最后还需要让数据“用得好”:企业的视频、音频、图片、文本等多种混合负载应用都能满足要求。
6、存储内生安全
数据作为AI的根基,其重要性进一步凸显,数据的安全就是企业核心资产的安全。据splunk公司发布的《2023年安全现状报告》显示,超过52%的组织遭受了恶意攻击导致数据泄露,66%的机构遭受勒索软件攻击,数据安全的重要性正在不断上升。
数据在产生、采集、传输、使用、销毁的全生命周期处理过程中始终离不开存储设备。存储作为数据的最终载体,数据的“保险箱”,拥有近数据的保护能力,近介质的控制能力,在数据安全防护、数据备份与恢复、数据安全销毁等领域有不可替代的作用。
存储内生安全体系通过先天的架构与设计,不断增强存储的安全能力,包含两个方面:存储设备自身的安全能力、存储的数据安全防护能力。
7、全场景闪存
根据市场统计到2022年,SSD的市场份额和出货数量已经是机械盘的2倍以上,占比超过了65%。我们有理由相信企业正在迎来全面闪存化的时代。
企业级 SSD 的核心组成部分——NAND颗粒,很大程度上决定其成本。而3D NAND堆叠层数升级与QLC颗粒的应用,推动全闪存物料成本不断降低。目前,主流颗粒厂商量产的3DNAND颗粒堆叠层数已经达到176L,并纷纷给出200层以上设计路标,比2018年提升接近2倍。除了堆叠层数,在颗粒类型方面,TLC颗粒已经成为企业级SSD主流选择,QLC SSD也已登上舞台。
更多SSD内容,参考“2023年计算机SSD固态硬盘词条报告”,“企业级SSD技术和行业发展(汇总) ”、“《中国企业级SSD行业技术合集》”、“《SSD技术白皮书系列》”和“《SSD介质技术》”。
8、以数据为中心的架构
近年来,AI和实时大数据分析应用蓬勃发展,以CPU为主的算力向CPU+GPU+NPU+DPU的多样化算力发展。
未来,随着AI、大数据等应用更高的性能时延要求、CPU性能增速放缓,在服务器架构演进为Composable架构的同时,存储架构也将演进为以数据为中心的Composable架构,从而大幅提升存储系统的性能。存储系统的多样化处理器(CPU、DPU)、内存池、闪存池、容量盘池,将通过新型数据总线互联,从而实现数据进入存储系统之后可以直接存放至内存或闪存,避免CPU成为数据访问的瓶颈。
9、AI赋能存储
基于传统AI实现性能、容量、备件故障等趋势提前预测,降低异常发生概率;在复杂的异常处理场景,存储管理系统可基于AI大模型快速强化交互逻辑,辅助人工快速定位问题,从而大幅缩短故障处理周期。
10、存储绿色节能
在“碳达峰、碳中和”大背景下,绿色低碳成为数据中心的重要发展方向。存储能耗在数据中心占比超过30%。因此,除了降低PUE之外,降低以存储为代表的IT设备能耗,对于促进数据中心零碳排至关重要。
通过多协议融合和孤岛融合,实现多合一,提升资源利用率。一套存储可支持文件、对象、HDFS等多种协议,满足多样化需求,整合多种类型存储;同时通过融合资源池,实现资源池化,从而提升利用率。
存储有83%的能耗来自于存储介质,在相同容量下,SSD相比机械硬盘的能耗降低70%,空间占用节省50%。通过大容量SSD和高密硬盘框,提升存储容量功耗占比,减少相同数据量附带产生的数据处理和存储能耗,进而推动存储单位容量能耗降低,用更小的空间存储更大的容量。