组织如何管理PB级数据？-pb级别数据

众所周知，管理PB级数据要比管理TB级数据要难的多。而如果管理不当，可能会为组织带来很大的损失，更糟糕的是如果主导数据丢失，甚至可以让组织可能损失上百万美元。对于TB级数据，组织可以忽略或采用暴力破解技术，而这在处理PB级数据时将会成为不可逾越的障碍。管理这一级别数据的关键是了解所面临的障碍是什么，并以专注的管理方式为他们做好准备。

大量数据中心面临的***挑战是非结构化数据的极大增长。虽然结构化数据在过去10至20年间有所增长，但在过去几年中，非结构化数据的来源以及人们使用所述数据的能力已经显著增加。非结构化数据管理面临的挑战之一是，通常很难确定何时删除它。

例如，从以往的会计年度选择所有财务记录，将其归档并从主存储系统中删除是非常容易的。用非结构化数据来做这个并不是那么简单。会计所面临的其中一个挑战是非结构化数据通常由无数人拥有的，而不是一个统一的应用程序。

组织的业务环境中可能存在数千个用户和数百个应用程序，用于创建非结构化数据，并且当一条非结构化数据变得有用时，通常对此并不清楚，因此没有人想要删除任何内容。缺乏具体的问责制导致大部分数据处于非活动状态，而这与数据占用空间无关。只要组织依靠数据创建者来识别和迁移那些陈旧的和未使用的数据，那么非活动数据将始终是一个问题。

当人们查看备份系统的问题，主存储系统日益膨胀的问题就会变得更加令人关注。由于大多数备份系统都处理所有非结构化数据，因此都会使用相同的策略来备份非常重要的数据和非活动数据。由于数据是混合的，所以根本无法处理所有数据。许多人每周进行全面备份，然后进行每日增量备份，保留至少六个月，也许可能是一年或更长时间。

如果保留至少90天的每周完整备份，就会看到12份无人关注的数据副本。如果存储该数据的现场和非现场副本，就会查看到该数据的24个副本，其中大部分是非活动的。对于一个2TB的组织数据来说，这将会存储48TB的数据，当然很多数据是可管理的。而这种存储的工作数据，48TB数据大约采用十几个磁带介质或硬盘驱动器进行存储。但对于1PB客户来说，每年24,000TB的数据或大约采用6000个存储介质进行存储。

存储在备份系统上的非活动数据的额外副本会产生许多不必要的后果。如果组织正在使用磁盘存储，则此数据的存储和复制具有与之相关的成本。如果组织的存储不使用重复数据删除，那么存储这些额外的数据副本的成本可能是个天文数字。如果组织使用重复数据删除技术，这些成本将会有点混淆。尽管组织的重复数据删除存储系统能够在存储一个副本的空间中存储20个副本，但是这些会收取一定费用，此外组织还需为额外的存储空间付费，只是以不同的方式支付。有些人这么说：重复数据删除系统使1TB存储看起来像20TB的存储空间，但是它们只收取10TB的存储空间。这意味着他们已经弄清楚如何收取10TB的存储空间的费用，而提供的却是1TB的存储空间。

在备份系统中使用重复数据删除的大多数组织也在方程式的目标端执行，这意味着对非活动数据的重复完全备份仍会在备份客户端产生问题。完全备份对正在备份的系统和发送备份的网络具有性能方面影响，因此，重复的非活动数据的完全备份会使组织的花费更多，因为需要购买更强大的服务器和更快的网络。

在数据还原过程中也会出现备份非活动数据的挑战。考虑一个具有PB级数据的数据中心的场景，其中900TB数据是活动的。恢复1PB的数据是一项重大的任务，需要相当长的时间。想象一下，如果只需要恢复组织实际使用的100TB数据，那么这种恢复是不是要快得多？

用户从不删除任何东西所带来的另一个挑战是，当真正需要的时候很难找到任何东西。这使所有的存储数据就是像屋子里放满杂物的抽屉，很难找到想要找的东西。就会发现不再使用的手机充电器，回形针，旧电池，发夹等杂和盘托出，什么都有，但就没有所要找的东西。主存储系统也采用这种相同的方式，因此当填充大多数不活动的数据时，很难找到活动的数据文件。

此外，即使一个用户在笔记本电脑中试图查找文件也会存在这个问题。想象一下，当人们谈论数千个用户和PB级数据时，这个问题是多么的巨大。这能够导致重要的文件丢失，使它们质上毫无价值。结果是用户将重复他们的努力，并重新创建文件，因此这让非结构化数据问题的增长变得更加糟糕。

具有PB级数据的规模更大的企业同样也存在这样的问题，他们通常面临不同的用户在多个位置创建和使用不同的文件中的问题。他们可能希望能够分享一些数据，但是对于是PB级数据来说，这是相当困难的。这也加剧了“垃圾抽屉”问题。在垃圾抽屉里找到什么东西很难，但如果不确定在哪个垃圾抽屉来找时，那就更难了。

确认和解决非结构化数据问题

解决非结构化数据问题的唯一方法就是承认它的存在。承认在大环境中很难找到文件，甚至更难共享。确认计算、网络和存储资源的很大一部分用于存储、复制和备份非活动数据。

解决这些问题的一个方法是创建一个全局统一的文件系统，将所有上述问题考虑在内。这并不能解决用户创建数百万个文件并将它们永远留在那里的问题，但它至少把问题放在一个可以集中管理和处理问题的保护伞下。出现一次问题，就解决一次，而不是在企业中多次解决这些问题。

是取消存档的时候吗？

设计这么大的文件系统应该通过高级元数据进行集成搜索。用户可以通过很多不同的元数据轻松地搜索，以便找到他们正在处理的文件。他们当然会继续拥有通常使用的文件系统语义，使它们能够创建目录或子目录来帮助他们整理他们的文件。具有联合搜索的单个文件系统还将允许他们查找其他人正在处理与他们感兴趣的元数据相匹配的文件。

最重要的是，为解决这个问题而设计的文件系统必须理解活动和非活动的数据，它必须以不同的方式解决。最明显的做法是自动识别并将非活动数据迁移到成本更低的自我保护对象存储。这将解决上述一些问题，包括在主存储和备份存储中的空间浪费。了解活动和非活动数据之间的差异的文件系统也有助于更容易地搜索文件，因为这是可以用于搜索的元数据之一。

一个单一的全局文件系统也可以帮助世界各地的用户共享数据。多个办公室的用户可以搜索同一个全局文件系统，找到他们正在寻找的数据类型，并立即访问它，如果他们拥有适当的权限的话。由于全局文件系统理解非活动数据的概念，所以搜索（如果用户需要的话）也可以包括非活动数据。

将非活动数据迁移到成本更低的对象存储的简单行为也释放了备份系统的压力。它使备份和恢复更快，因为它们不必处理非活动数据，因此也节省了大量的存储空间。有些人认为存储在自保护对象存储中的数据根本不需要备份。如果用户决定备份，可以这样做，以识别其性质，并在备份系统中存储少得多的非活动数据副本。

这个问题已经存在多年。企业似乎对于非结构化数据的渴望是永无止境的，IT应用程序开发人员正在开发利用非结构化数据的新方法，使得拥有这样的数据更具吸引力。非结构化数据的增长不太可能很快消失，所以用户***的办法就是解决问题。一个很好的方法是采用一个全局文件系统，用于处理问题，这包括理解元数据以及将非活动数据自动迁移到成本较低的对象存储。