对今天任何企业而言,信息和数据都已成为其核心资产,维护这部分信息正是IT部门的关键要务。在常见的业务流程中,IT人员会将每天的数据备份复制,用于其他各种用途。不幸的是,这部分数据存储往往消耗过量的存储空间,从而加紧了原本便不宽裕的存储预算。
数据无休止增长的解决方案之一便是使用拷贝管理系统。虽然这仍属于较新出现的技术,但市场上已经有不少小型的拷贝数据管理(CDM)厂商,而大型存储系统供应商则将此功能添加到现有产品之中。
为何针对拷贝?
数据副本对IT部门有许多种用途。除了用于灾难恢复的拷贝会实际将所有数据都迁移至另一个平台,绝大多数的只是时间点拷贝,表示其只代表数据在某个特定时刻的状态。举例而言,快照每小时或每天都会生成,以便在发生用户错误删除等操作时,IT部门能够快速找回或更正相关数据。
数据拷贝亦可以用于搭建测试环境,供应用程序开发使用。这种使用场景会从主备份中复制出一份拷贝,以确保主拷贝不会损坏而无法满足合规或引起生产数据无法恢复的风险。
在服务器虚拟化技术出现之前,应用程序使用专门的开发与用户验收培训(UAT)系统,并在开发环境中测试代码,由UAT测试系统负载。
现在,伴随着应用程序变得越来越虚拟化,并采用容器技术,更改应用程序的过程更多采取DevOps的方式,从而确保快速迭代与上市。这意味着开发人员需要同时提供多个测试数据副本,即使其中的大部分只会保留几个小时或几天。
维护多个数据副本令企业组织头疼不已。每个副本必须有负责人跟进其状态,以便在某个时刻将其释放。在备份领域,已经有些许流程来对此做生命周期管理。备份通常根据时间周期循环往复。
但这不适合测试或开发数据,因此仍需要开发出新的流程。这或将成为拷贝数据管理的潜在市场。
海量复制
伴随着向服务器虚拟化的转变,我们之前所讨论的二级数据使用都通过虚拟机镜像中获得。现代化的虚拟机管理程序(Hypervisor)提供接口和API ,从而可以在数据块层级提取虚拟机数据,让备份过程相对简单化。
虚拟机管理程序通常也能实现快照功能,但这绝非是无偿的。保留多份快照,尤其是在后期合并这些快照更新,会对运行在虚拟机中的应用程序性能产生重大影响。这是拷贝管理系统可以解决的另一项问题。
整合带来效益
有许多内部的IT流程和系统会为各种用途进行时间点拷贝。随着服务器虚拟化技术的高度渗透,大多数通过API采集数据的业务流程都用这些相同或相似的接口来提取数据。将这些功能整合至单一平台颇具意义。
整合能够带来下列显著的改善之处:
- 节省成本。因各种用途而产生的数据(归档、备份、测试和开发)可以集中到单个硬件集群上,避免了同时运行多个平台,减少相关的部署、维护和升级成本。同时,这样做也减少了硬件和相应的空间,并降低冷却成本。
- 避免对业务运营的影响。将事务性工作迁移到另一平台上可以减少对生产系统的影响。这样做可以消除快照管理(和性能)的开支。你可以在辅助平台上管理数据恢复,而非去影响生产系统。这样还能降低意外覆盖生产系统的风险。
- 减少安全风险。对业务运营而言,将二级数据放在另一个平台上可以轻松分割安全权限。对需要访问生产镜像的团队,无论其处于何种目的,都可以从安全的角度分离出来,单独审计。
那么,市场上为什么直到今天才出现CDM的成功部署?有一些技术创新使得拷贝管理系统比运行单独的平台更具吸引力。
***项创新技术是重复数据删除,通过消除重复的数据块(通常在数据块级别)从数据集合中消除冗余的物理数据。事实上,该技术仅保留单个物理副本,然后用元数据和指针来映射数据的逻辑和物理关系。
二级数据通常是高度冗余的,其中创建了虚拟机和虚拟机下层镜像的多个副本。这使得重复数据删除能够节省下相当可观的存储量,尤其是在组合了多个时间点的数据源(如备份和数据镜像)时。
今天硬件平台(其中的绝大部分基于Intel x86架构)处理能力的提高代表着你可以无需额外的定制化硬件,即可执行诸如重复数据删除、过零检测和压缩等技术。这使得拷贝管理技术更专注于通过软件提升价值,即便在最终产品上,仍会以软硬件组合的形式销售。
我们还能够为这项创新增添闪存技术。闪存为随机数据访问操作(通常是经过重复数据删除带来了极高的性能,并且伴随着价格持续下降,其在设备内的部署会逐渐增多。
从硬件上分离开
拷贝管理系统通常被部署为独立的平台,而非直接对接生产系统。这样的设计有助于遵循最基本的备份原则,即从物理上分开平台与生产系统的数据联系。从逻辑上将主数据与二级数据隔离开,甚至在需要的情况下将数据存储到远程。
二级平台还可以处理与主存储不同的数据。对生产端的主数据而言,其目的是尽可能快地满足应用程序的I / O请求,而不需要快照。通过拷贝管理技术,数据不断变化,应用程序不断更新存储,而将访问历史数据留给辅助平台完成。
因此,拷贝管理系统中的数据存储和检索方式必须结构化,以便不论是访问六个月或五分钟之前的数据都不会对性能产生什么影响。这也意味着数据的内部结构需要不同于生产系统。数据结构和相关元数据要能够提供诸如搜索之类的高级功能,这样增加了作为备份和归档平台的CDM的总体价值。
扩展至云端
拷贝管理系统可以重复利用公有云带来的灵活性。诸如Amazon Web Services、Microsoft Azure和Google Cloud Platform所带来的超大规模服务可以提供近乎***的计算和存储资源,根据实际消费逐月收费。公有云将资产购置转化为服务购买,只收取所使用的资源,而不用为资源的建设买单。
拷贝管理系统扩展至公有云意味着企业组织能够卸下陈旧数据的包袱,这些数据不太会马上被用来进行恢复或测试。CDM系统可以有效地成为应用程序的归档工具(这也就是为什么搜索会成为一项重要的特性)。
伴随着CDM在云端技术支持的日益成熟,我们可以想象未来可以将应用程序直接部署在公有云端,进行测试/开发工作,不需要将数据存储到现场。这会大幅度降低成本,而且只是运营成本。
领先的拷贝数据管理厂商能够提供哪些功能?
现在我们对CDM可以实现的内容有更清晰地认识,那么接下来简要介绍下今天市场上领先的拷贝管理系统。这些产品经由市场权威人士的广泛研究确定,其中涉及到哪些产品最适合用于作为行业购买标准。
- Rubrik和Cohesity都通过软硬件结合的方式来处理拷贝管理。 这些拷贝管理系统通常可以横向扩展,并支持与公有云的对接。
- Actifio和Druva提供的软件都可以获取现有硬件平台上的数据,包括虚拟服务器环境和传统应用环境。
- Catalogic Software可以利用底层存储平台的快照功能,管理来自EMC、IBM和NetApp存储阵列上的快照。
- Hitachi Data的Instance Director可以管理Hitachi Data System的企业级的Virtual Storage Platform 和Hitachi NAS Platform,支持诸如Oracle、Exchange、SQL Server和SAP HANA等传统应用程序。
- Dell EMC所提供Enterprise Copy Data Management可以管理Dell EMC的 VMAX,XtremIO以及Data Domain平台之间的数据。
- Delphix软件专注于解决数据库的拷贝管理问题。
- Commvault在其包罗万象的数据管理平台中提供了一系列类似CDM的功能。