大多数企业都同时拥有多种类型的数据,每种数据在容量和应用程序访问性能等方面的需求优先级各不相同。由于需要服务于不同的数据存储需求,大多数大型数据中心都会同时使用多种类型的存储设施。
鉴于成本问题,很少有企业能够(不计成本地)将全部数据都放在市场上能买到的最快但也最昂贵的闪存存储中,因此混合使用闪存和硬盘驱动器的混合阵列将是许多数据中心的主要存储构成。 混合存储阵列整合了多种类型的存储元素,能在满足对应多种数据优先级需求的同时实现成本控制。
随着混合存储的不断发展,能整合的存储类型范围已经不仅限于闪存和硬盘,还扩大到包括多层闪存、多层硬盘、磁带、对象和基于云的存储,这些存储都被链接到单一和透明的虚拟存储基础架构中,整套架构可以针对每种类型的数据和应用程序优先级自动提供***的性能。
本篇文章提供的使用场景剖析可帮助您更好地了解混合存储阵列的优势,以及最适合混合存储的各种数据类型。这些信息可以让您更好地设定使用场景,从而明确采购选型需求。
混合存储阵列适合那些数据类型?
实时的事务处理大数据。实时数据通常具备活跃和持久的特性;当用户执行搜索、销售分析或其它动作时,数据库或其他使用实时数据的应用程序也会同时驱动数据流转。自动化分层软件通常会尽量将所有活跃数据保留在尽可能高的层,但是管理员可能希望单独指定一些数据库、分区或数据卷,让这些数据集中保存在一个特定的层,以确保某些应用获得低延迟。如果某些数据在一段时间内不再活跃,这些数据将向较低级的存储层迁移。
对于大数据、数据湖或其他大型数据集,将数据保存在云中的举措值得尝试,分层体系就可根据需要在热、温、冷云存储之间移动数据。
典型的文件服务器数据。存储在文件服务器上的常见数据类型,包括文本、文字处理数据、电子表格和演示幻灯片,这些数据很少需要闪存的速度。文档或文件被加载到用户终端后,用户输入数据的带宽通常只是每秒几个字符的数量级别,根本不需要亚微秒的响应时间。即使正在渲染的特效或光线追踪图形、或正在编译的大型程序的性能都受到CPU或图形处理能力的限制,数据访问的速度并不是瓶颈。例外情况即使存在也不会太多,完全可以由管理员单独处理。
数据流。数据流的关键定义是:可预测和连续性,因此数据流不需要闪存的低延迟和随机存取能力。即使是被大量用户同时访问的流式传输数据也非常容易对付,无需使用大量Flash就能获得***化的性能。另外,数据流通常意味着文件尺寸和数量都很大,因此数据流会大量占用和消耗存储空间,并成为低层存储的理想负载类型。
虚拟系统数据。与流式数据相比,闪存存储的最适合的负载应该是虚拟服务器和虚拟桌面基础架构(VDI)。这些数据类型可以充分利用闪存的低延迟特性,并提供重复数据删除功能,因为许多虚拟机(VM)与其他虚拟机之间具备极高的数据重复比例。例如,一个拥有100个Windows虚拟机的VDI系统中,每个客户机可能和其它虚拟机有99%的相同数据,可实现的重复数据删除率接近100:1,因此100个虚拟机只需占用比1个虚拟机略多一点的存储空间。闪存存储速度足以支持重复数据删除并轻松处理典型的VDI部署的峰值负载,例如,用户在上午8点登录,在中午注销午餐,下午1点重新登录,并在下午5点重新登录。
在不同层之间迁移数据
自动分层软件对用户和管理员来说是透明的。出现在同一目录中的两个文件实际上可能位于存储系统的不同层,甚至可能位于不同的系存储统或数据中心。存储虚拟化软件能识别很少使用的文件并将其移动到速度较慢、较便宜的存储设备上,同时保留占位符以告知系统文件保存的位置。如果用户打开该文件,则系统会自动从较慢的存储中提取文件,并将其移回更快的层。
一些最早的自动化分层系统完全基于数据的活跃程度执行分层动作。例如,在设定的时间区间内,如果文件未被打开或更改,则该文件被移动到较低层;如果用户在此期间打开过该文件,则该文件被移动到较高层。如今有些存储系统仍在以这种方式工作。有些系统会增加预测算法来迁移关联数据,例如,打开文件夹中的一个文件的用户很可能会需要获取同一目录中的其余数据。还有些系统在数据块层级而不是文件级移动数据,这种方式适合常见的对大文件执行少部分操作的场景,在数据块级执行分层处理可以使文件不需要读写的部分继续保存在较慢的存储空间中。只有修改频繁的块才会保留在更快的层上。
许多指标可以被用于确定数据应该存放的数据层,包括服务等级协议、仅在本季度末搜索的数据、应具有***冗余的关键数据以及需要极高吞吐量的数据。自动分层软件可能无法正确处理这些数据,因此可以考虑手动指派特定的层。
无论是通过闪存阵列自带的功能,还是单独购买的软件来实现,存储管理软件适应复杂场景的能力决定了管理员处理各类特殊分层要求的操作方式。一些混合存储阵列可以让管理员设定针对特定文件或目录树的响应时间、吞吐量和延迟的***限制,并自动确保分层处理满足这些***要求,其他系统则无法提供这种承诺。同样,某些系统可以按特定的时间间隔迁移数据,以便在季末结算工作开展之前先将数据迁移到更高层,或者将某些文件或目录***保存在指定的层。
混合存储阵列能同时提供闪存的速度和低延迟,以及HDD,磁带或云的经济性。它们必然比全闪存或全HDD系统复杂,但灵活性和低成本的优势使其值得纳入选型评估。从起价低于1000美元的NAS盒子到100万美元的企业级系统,大多数供应商都开始提供某种形式的混合存储。管理员应该熟悉这些系统的工作方式,选择有潜力的技术为IT组织节省大量资金。
分层软件是如何运作的
分层软件是混合存储系统的核心,它可以自动将最常访问的数据放在最快的层,甚至包含更复杂的系统逻辑,这些系统可以主动预判和抓取相关数据,并根据需要将数据在不同层之间移动。虽然也可以用手动操作的方式将数据分层到不同类型存储的容器,但是移动数据会占用管理员的大量工作时间,从长远来看,人力成本的耗费可能会超出分层软件的价钱。
管理员也可以单独购买分层软件创建自己的混合存储系统。但是,考虑到管理员学习软件和部署组合软件和硬件的时间,购买散件自己组装仍然不具备成本优势。除非已经拥有了可用于某些分层的存储设施,这种情况下利用现有资源搭建分层存储就是更经济有效的选择。
除了最常见的具有一层闪存和一层硬盘存储的两层系统之外,管理员可能还要考虑更多分层。例如,即使在闪存的范围内,也存在存储器总线闪存,非易失性存储器快速闪存(NVMe),写入优化的闪存和读取优化的闪存,以上每种闪存都比前一种闪存更便宜,但性能也更有限。还有多层HDD存储——不仅包括15,000 RPM、10,000 RPM和7,200 RPM驱动器,还可以选择在不使用驱动器的时候关闭驱动器,甚至在HDD上运行对象存储。不要忘记更下游还有磁带和云存储,每GB的成本更低,当然响应时间也更慢。
虽然实际的统计数据可能会有所不同,但是80/20规则对于考虑层级是很有效的:写入存储系统的新数据中的80%大约有30天的活跃周期,然后就很少被访问。活跃数据中的20%会长期保持活跃,应该固定在最快的存储空间上,其余的可以在30天后迁移到较便宜的存储空间,在必要时才存回更快速的存储层。