为大数据存储作好准备的12个要点-属于大数据存储的特点

【51CTO.com快译】眼下北美正处于飓风季节――那些存储专业人士似乎认为已经受住了大数据存储领域的风暴，最好还是小心为妙。由于Hadoop之类的非结构化数据存储技术，尽管数据一年比一年疯狂增长，他们还是开始可以轻松应对。其实他们还没有看到真正的挑战。存储领域的每个方面(本地、私有云和公共云)即将面临一场数据飓风，这场飓风会让过去几年的风暴如同一阵微风。

Wikibon的分析师伯特·拉塔莫尔(Bert Latamore)说：“虽然大数据和物联网在如今的公共云工作负载中只占极小一部分，但两者都在迅速增长。到2020年，这两个领域会成为公共云市场的主角。”

下面这些要点可以帮助你应对潮水般涌来的大数据。

[[173753]]

1. 大数据存储，大数据问题

StorageIO集团的分析师格雷格·舒尔茨(Greg Schulz)表示，大数据存储的最大挑战之一是大数据有许多不同的类型、层面和方面，其中一些是庞大、快速的数据流，包括视频和监控画面，另一些是日志、事件及其他遥测数据，另外还有大量传统的非结构化文件和对象。当然，共同的主题是，有的有更多数据(体量)，有的更庞大(大小)，有的是非结构化数据。因此，有必要了解你在处理哪种类型的大数据，以便确保该数据得到适当的处理。

舒尔茨说：“面临的挑战包括如何处理和扩展管理，又不增加成本和复杂性，同时又解决性能、可用性、容量和成本等方面的问题。这意味着，重新考虑如何存储数据、存储在哪里，这还关系到应用程序位于哪里(位于本地还是云端)，以及如何访问(块、文件还是对象)。

2. 应用程序的位置

在过去，你可以把所有数据集中起来，让应用程序从远端获取这些数据。但这种方法往往造成太多的瓶颈。

舒尔茨说：“让数据靠近使用数据的应用程序所在的地方;如果那些应用程序在云端，那么把数据放在云端;如果应用程序在本地，就把数据放在本地。关键是要了解应用程序，它们所在的位置，它们如何使用数据，然后使用满足要求的相应技术。另外，要了解你的应用程序是否需要对象、需要哪个API进行访问，或者它们是否与向外扩展型NAS兼容。”

比如说，一些应用程序可能最好使用Hadoop分布式文件系统(HDFS)或另一种其他的文件共享平台，而其他应用程序应使用亚马逊S3、Swift或其他形式的对象存储。他补充道，还要牢记你将如何存储和管理元数据，以支持大数据应用程序。

3. 分叉的存储策略

451 Research公司的分析师西蒙·罗宾逊(Simon Robinson)认为在未来，闪存层(高性能)满足快速存储数据的要求，而其他一切数据进入到针对成本经过优化的存储层，这些存储层得到对象存储(大容量)的支持。有各种各样的存储分层场景对应于特定的企业要求。这里的关键是数据在存储层之间实现无缝、自动化的移动，那样最终用户甚至不知道还有分层这回事。

4. 足够重视大数据

说到有效地管理数量不断增加的大数据，有必要花时间来制定这种战略：不仅满足短期要求，还可以随着时间的推移来扩展，从而有效地支持你。否则，你最后面临的软硬件部件就会到达再也无法有效扩展的地步。因此在购买之前，仔细调查技术的扩展性有多好。在大数据环境下，最好扩展性足以处理大量涌入的存储数据。

DataDirect Networks(DDN)的营销战略和运营高级主管迈克尔·金(Michael King)说：“如果另外添加的每个存储卷要花越来越长的时间来管理，增添存储卷的结果似乎没有带来预期的容量和性能，这就表明现有的软硬件部件到了它们再也无法有效扩展的地步。”

5. 对元数据进行分类

对数据进行分类是明智之举，因为这让你能够知道数据是什么样的数据，能够搜索元数据来找到它。长长的文件名在过去也许行得通，但由于数据高达100%的同比增长率，现在不管用了。

Spectra Logic公司的首席技术官马特·斯塔尔(Matt Starr)说：“对数据进行分类是应对数据急剧增长的最佳方法之一。在数据创建时收集元数据，并将至少两份数据存储在不同的介质上，比如一份存储在磁带上，另一份存储在磁盘上。”

6. 将容量和计算分开来

另一个技巧是建立将容量和计算分开来的向外扩展型存储系统。由于数据变得越来越大，建立这样的一套IT基础设施很重要：可扩展，非常适合实际要求，又不过度配置资源。

Kaminario公司的首席技术官沙恰·菲恩布利特(Shachar Fienblit)说：“要做到这点，一个办法是花钱建立可独立扩展容量和计算的存储基础设施。”

大数据存储解决方案应该支持多种协议，简化处理数据的方式。实时分析使得存储工作负载越来越不易于预测。这就是为什么闪存是存储和处理大数据工作负载的首选存储介质。由于闪存介质的成本降得很快，业界会看到越来越多的大数据工作负载在纯闪存阵列上运行。

7. 大众化硬件

向外扩展型对象存储是处理这些问题的最有效途径之一，因为数据得到持续保护，又不需要备份。但是你如何把硬件成本降下来呢?

Caringo公司的产品副总裁托尼·巴伯加洛(Tony Barbagallo)说：“如果运行在大众化x86服务器上，对象存储让你可以无缝地升级硬件，因为这些设备运行起来如同模块化装置，可在不降低效率的情况下整合起来。”

8. 目光长远

说到大数据预测，很显然存储管理员最好为数据增长做好正确的规划。不过，大多数人的眼光不够长――他们习惯于只考虑一年后、两年后或三年后的情形。这根本谈不上目光有多长远。

巴伯加洛说：“想一想5年后、10年后甚至20年后的情形。确保你选择的解决方案可伴随要求而演进，不会害得你被专有硬件牢牢束缚。”

9. 别一味依赖磁盘

市场研究机构Gartner表示，我们在过去两年生成的数据比整个人类历史还要多。不过，存储架构方面的变化没有跟上数据需求的步伐。

根据克莱德定律，每13个月，每英寸磁存储面积上的磁盘密度就会翻一番。

Infogix公司的金融服务行业(FSI)战略和运营经理森提尔·拉贾曼尼坎(Senthil Rajamanickam)说：“如果存储密度的变化符合克莱德定律，那么到2020年，一只双盘片的2.5英寸硬盘其容量将达到40 TB，成本为40美元。”

这本身足够了不起，但是还是无法足以处理所有的大数据。为了跟上大数据增长的步伐，固态硬盘、磁带和云这些都不可或缺。

10. 暗数据

不使用的操作型数据被称为暗数据。Gartner称之为“企业在日常业务活动的过程中收集、处理和存储，但通常不用于其他用途的信息资产。”

而这样的暗数据其实有很多。

拉贾曼尼坎说：“防止大数据环境下出现暗数据需要数据控制，以便在数据获取期间审查/监控进入的数据，并且清查大数据环境。”

11. 除了容量，还有速度

围绕大数据的讨论主要侧重于拥有足够的容量。但数据速度是个同样重要的问题。因此，在设计存储系统的架构之前，必须考虑大数据速度这个因素。

拉贾曼尼坎说：“支持高度实时性的事件流这个存储要求与处理不断增长的日志数据大不一样。”

12. 全部采用云，还是部分采用云?

一些人试图通过把数据留在内部来处理大数据。但其他人可能更喜欢把数据全部倒入到云端，确保有效管理数据，以控制成本。不过，大多数人可能会找到一种折中方案。

Avere Systems公司的产品管理和营销高级主管杰夫·泰伯(Jeff Tabor)说：“混合云方法让你可以继续在本地的数据中心中运行系统，同时将一些系统迁移到云端来运行。如果存储是你的主要问题，第一步是使用存储网关，把旧数据迁移到云端。如果计算是你的主要难题，云突发(cloud bursting)技术让你可以把数据留在本地数据中心的原来位置，开始在公共计算云处理数据。”

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】