数据的备份和归档具有不同的功能,很多人没有认识到两者之间的差异,这可能导致访问问题,甚至法律问题。而对于备份人员来说,备份和归档之间的差别非常明显,很容易理解。
什么是备份?
备份是为了在损坏或丢失的情况下恢复所述数据而创建的数据副本。在备份完成后,不会删除原始数据。
备份的例子包括笔记本电脑或台式机上所有文件的每次备份,或者iPhone上的所有照片都会被复制到iCloud,以防数据随着手机丢失而丢失。人们还将备份文件服务器(非结构化数据)和数据库(结构化数据)。备份可能会更加关注数据,如数据库转储、服务器的操作系统、裸机备份,或两者都支持VMware 的VMDK文件的备份。
备份的定义实际上归结为目的,备份的目的始终是相同的:如果发生某些事情,则恢复数据。例如,RAID 6存储阵列的三个磁盘可能存在故障,并且需要还原其所有数据。有人可能会意外或恶意删除VMware、Hyper-V或AWS EC2配置中的一个或多个虚拟机,并且需要还原它们。人们可能有一天会意识到组织中的每个文件都已被勒索软件包加密。如果没有良好的备份系统,其最终的选择只能是支付赎金。而有了良好的备份系统,则可以找到勒索软件所勒索的数据,然后恢复所有数据,而无需支付黑客勒索费用。
什么是归档?
归档是为参考目的而创建的数据副本。虽然不是必需的,但在进行归档后通常会删除原件。
如果备份的目的是将某些数据恢复到平时的样子,那么归档可以用于多种目的。最常见的目的是帮助人们找到很久以前的一些数据。它可能是单个文件,其中包含一个非常重要的项目,例如几年前客户签署的合同。它可能是一组相关的数据,例如某个建筑物的所有结构图。或者它可能是企业过去制作的都已经过时的所有CAD图纸。
另一个相关数据集可能是可以证明给定点的所有电子邮件和/或文件。也许一名员工被解雇了,这是因为公司认为他实施了没有许可的行为,然后。企业的诉讼可能会发出一个电子发现请求,要求所有发送给他们的电子邮件,其中非工作时间或他们将要兼职的公司名称。其他人可能正试图证明其工作状态,并希望查看来自特定管理人员的所有电子邮件,这些管理人员的电子邮件将会列出。
归档可以帮助人们完成所有这些任务。某人可能拥有企业所提供的每个销售订单、报价或合同的归档。可以在线保留当前的合同和订单,但是将所有这些合同和订单保存在归档中,归档应该有一个索引,允许通过这些订单的内容检索订单和合同。或者某人也可能拥有公司发送或接收的每封电子邮件的归档。
某些电子邮件归档系统可以从电子邮件服务器中清除已存档的电子邮件,这些电子邮件可以通过超过一定大小,或在n天内未被访问等条件进行消除。这有助于保持电子邮件系统的精简,节省计算和存储资源,并使备份工作更容易。如果法律不要求人们保留所有电子邮件,那么这甚至可能是归档的目的。
恢复与检索
即使归档的目的是节省主存储空间,它也需要能够执行检索而不是恢复(如果要将其称为存档)。备份系统还原和归档系统检索。
还原时,它通常是单个文件、服务器或数据库。当人们检索某些内容时,它通常是相关数据的集合,可能存储也可能不存储在同一服务器上,甚至可能存储在相同的格式中。还可以对单个时间点执行还原,例如将数据库还原到某天的样子。检索使用一段时间的数据,例如过去三年的所有电子邮件。
数据恢复需要人们了解文件或数据备份时的大部分内容,否则很难找到它。人们需要知道它所在的服务器的名称,它所在的数据库或目录,要返回的文件或表的名称,以及上次查看的日期。检索不需要这些信息,人们只需要知道所有与一组参数匹配的文件或记录。例如提供过去三年中创建的包含特定短语或由特定人员创作的所有文件或电子邮件。
差异为何重要
许多人尝试将他们的备份系统用作归档系统,这意味着他们将备份保存多年,甚至永远。在***次获得真正的检索请求时,人们会发现从执行恢复的操作中执行检索是多么困难。这将使检索花费更多、更长的时间,可能是几个月而不是几分钟,并且花费更多的成本,甚至高达数百万美元。
如果检索是针对来自诉讼的电子发现请求,并且无法及时满足,那么可能会有法院发出不利推理指令的风险。人们花费六个月的时间来满足他们所知道的简单要求,而却远远没有完成。法官推断其试图隐瞒什么。比较闻名的例子是摩根士丹利的诉讼案例,他们在这种情况下损失了数十亿美元。
因此,不要将备份用作归档。如果人们有着长期存储需求,请采用一个实际的归档系统。这将有一个前期成本,但从长远来看它将是值得的。