译者 | 布加迪
审校 | 孙淑娟
如果您负责管理企业数据,就知道存储有利有弊。一方面,能够访问大量数据对商业决策大有帮助。另一方面,存储所有这些数据可能很费钱,而且管理起来非常混乱。
这时候分级存储管理(HSM)就有了用武之地。HSM是一种以安全、经济高效的方式存储数据的系统。本文简要介绍了HSM、定义、工作原理以及它为贵组织带来的一些好处。
1、HSM是什么?
分级存储管理(HSM)是一种以安全、经济高效的方式存储数据的系统。HSM背后的基本想法是将数据存储在类型最合适的存储介质上,这取决于访问数据的频次。
比如说,访问频繁的数据可以存储在较昂贵、性能较高的存储介质上,比如固态硬盘(SSD),而访问不大频繁的数据可以存储在较便宜、性能较低的存储介质上,比如普通硬盘(HDD)。
虽然HSM是一个由来已久的概念,但由于技术存储和通信方法方面的进步,自问世以来已发生了巨大的变化。然而,尽管数据大小和访问时间等方面今非昔比,但很多最初的概念今天仍然很受欢迎,只是在处理大数据时规模要大得多。
2、HSM系统是如何工作的?
HSM系统的工作原理是,根据数据需要访问的频次,在不同的存储层之间自动移动数据。频繁访问的数据将存储在快速、昂贵的存储介质(比如SSD)上,不常访问的数据将被转移到较慢、较便宜的存储介质上。这确保了用户总是能够快速访问所需的数据,同时又尽量降低存储成本和用电量。
HSM可与大多数计算机CPU上的缓存相媲美。与CPU缓存一样,经常使用的数据存储在小而快的SRAM内存中,不常使用的数据在需要加载新数据时转移到较慢但较大的DRAM中。
3、HSM组件和算法
HSM系统通常由三个关键组件组成:数据迁移策略、数据管理算法和数据分层或缓存机制。数据迁移策略根据使用频次或重要性等因素,定义了应该如何在不同的存储设备之间移动数据。HSM系统使用的算法可以根据数据访问的频次或数据大小等标准,帮助确定哪些数据应该存储在哪个设备上。
其中一些算法包括最近最少使用置换算法,将最近没有被访问的数据移动到性能较低的存储层。大小温度置换算法是另一种常用的算法,它使用温度阈值和大小阈值来确定何时迁移数据。启发式阈值算法是一种较新的算法,利用机器学习技术更准确地预测何时应该迁移数据。
4、分层和缓存HSM
关于分层还是缓存的争论是HSM系统设计师在试图确定利用较低性能存储层的最佳方法时所面临的问题。分层可以提供更好的长期性能,而缓存可以提供更好的短期性能。
无论您选择对存储进行分层还是缓存,这些机制都可以确保频繁访问的数据存储在较快、较容易访问的设备上,而不常访问的数据存储在较慢、较便宜的设备上。
5、HSM的好处
节省成本:HSM系统让用户可以在任何可能的情况下将数据存储在较便宜的存储介质上,以便企业节省总体存储成本。
提升性能:HSM系统让用户可以将频繁访问的数据存储在高性能存储介质(比如SSD)上,从而提升系统的整体性能。
加强安全:分级存储管理系统让用户可以将敏感数据存储在较安全的存储介质上,如具有加密功能的SSD或HDD。这些选项有助于加强系统的总体安全性。
改进可管理性:HSM系统让用户可以根据访问数据的频次,将数据存储在不同类型的存储介质上。它们可以在需要时更容易查找和检索特定文件,从而帮助改进系统的整体可管理性。
6、主流的HSM解决方案
如今,市面上有许多不同的HSM解决方案。一些面向大数据的主要HSM解决方案包括如下:
- IBM Spectrum Scale
- EMC Celerra / VNX
- NetApp FAS /AFF
- HPE 3 par StoreServe
- 华为OceanStor Dorado
- Qumulo Core
- Red Hat Ceph Storage
请注意,上面这份清单并不完整,也不按特定的顺序。目前市场上有许多不同的HSM解决方案,因此确保您的存储工程师及其他数据专业人员花一些时间来比较几款解决方案,以找到最适合贵公司需求的解决方案。
原文链接:https://www.techrepublic.com/article/what-is-hierarchical-storage-management/