十大大数据存储工具-大数据存储

【51CTO.com快译】市面上有大量的大数据存储产品。哪些产品是最好的?很显然，没有一个简单的答案。选择大数据存储工具牵涉许多变化因素，包括现有环境、目前的存储平台、数据增长预期、文件的大小及类型、数据库和应用程序程序组合等。

虽然本文根本不是什么完整的清单，但还是列出了值得你考虑的几种顶尖的大数据存储工具。

大数据存储领域的主要竞争者

日立

日立提供了几款大数据存储产品。与Pentaho软件公司合作开发的大数据分析工具、日立超级横向扩展平台(HSP)、HSP技术架构以及日立视频管理平台(VMP)。后一个例子专门针对大视频这个方兴未艾的大数据子集，面向视频监控及其他视频密集型存储应用领域。

DDN

类似地，DataDirect Networks(DDN)也有一批面向大数据存储的解决方案。

比如说，其高性能SFA7700X文件存储可以自动分层到WOS对象存储归档系统，支持快速收集、同时分析和经济高效地保留大数据。

DDN的营销战略和运营高级主管迈克尔·金(Michael King)说：“斯克里普斯研究所使用该产品用于冷冻电子显微镜(Cryo-EM)，每周收集30 多TB的数据，寻找艾滋病毒、埃博拉、寨卡及主要神经疾病的治疗方法。而在过去，查看蛋白质结构和产生的抗体至少需要一年的时间。Cyro-EM在几周内就完成了发现过程。”

Spectra BlackPearl

Spectra Logic的BlackPearl深度存储网关为基于SAS的磁盘、SMR降速磁盘或磁带提供了对象存储接口，所有这些技术都可以放在存储环境中BlackPearl的后面。

Kaminario K2

Kamiario提供了另一种大数据存储平台。虽然它并不提供经典的大数据设备，但其全闪存阵列正在许多大数据应用领域找到一席之地。

Kaminario的首席技术官沙恰·菲恩布利特(Shachar Fienblit)说：“由于开发人员把实时分析融入到应用中，存储基础设施策略必须能够管理大数据分析工作负载以及传统的事务处理工作负载。Kaminario K2全闪存阵列就是为了支持这种动态工作负载环境而开发的。”

Caringo

Caringo成立于2005年，旨在发掘数据的价值，并解决大规模保护、管理、组织和搜索数据方面的问题。有了旗舰产品Swarm，用户无需将数据迁移到不同的解决方案，即可实现长期保存、交付和分析，因而降低总体拥有成本。它已经被全球400多家组织所使用，比如美国国防部、巴西联邦法院系统、奥斯汀市、西班牙电信、英国电信、Ask.com和约翰斯霍普金斯大学。

Caringo的产品副总裁托尼·巴巴加洛(Tony Barbagallo)说：“为了简化获取数据、馈送给Swarm，我们有FileFly(用于Windows文件服务器及NetApp服务器)和SwarmNFS(提供功能齐全的NFSv4基础设施)。”

Infogix

Infogix企业数据分析平台基于五项核心功能：数据质量、事务监控、均衡及协调、身份匹配、行为分析以及预测模型。这些功能据说可帮助公司提高运营效率、带来新的收入、确保合规，并获得竞争优势。该平台可以实时检测出现的数据错误，并自动实行全面分析，以优化大数据项目的表现。

Avere混合云

Avere提供了另一种大数据存储方案。其Avere混合云部署在混合云基础设施中的各种用例。物理FXT集群用于NAS优化这种用例，充分利用基于磁盘的现有NAS系统前面的全闪存高性能层。FXT集群使用缓存，以便自动加快活跃数据，使用集群扩展性能(添加更多的处理器和内存)及容量(添加更多的固态硬盘)，并将有时部署在广域网上的核心存储的延迟隐藏起来。用户发觉它是加速渲染、基因组分析、金融模拟、软件工具和二进制代码库等性能的好方法。

在面向私有对象的文件存储这种用例下，用户希望从NAS迁移到私有对象存储。他们往往喜欢私有对象的效率、简单性和弹性，但不喜欢其性能或基于对象的API接口。在这种用例下，FXT集群提升了私有对象存储的性能，其实现方式与NAS优化这种用例一样。

Avere Systems的产品管理和市场营销高级主管杰夫·泰伯(Jeff Tabor)说：“此外，FXT集群提供了熟悉的NAS协议，可转换成存储端的对象API，那样用户不用改写应用程序，或不用改变数据访问方法，就可以使用对象存储。”

最后，云存储网络这种用例类似面向私有对象的文件存储这种用例，增添的一个好处是，企业可以开始构建更少的数据中心，将数据迁移到云端。延迟是这种用例要克服的挑战之一，这正是物理FXT集群所要解决的。访问时，数据在FXT集群上本地缓存，那样之后进行的所有访问都具有低延迟的优点。FXT集群可能拥有多达480TB的总缓存容量，因而大量数据可以在本地存储起来，避免云的延迟。

DriveScale

大数据通常存储在本地磁盘上，这意味着为了在大数据集群的规模不断扩大时，能实现效率和扩展性，就需要保持计算和存储之间的逻辑关系。于是出现了一个问题是：如何将磁盘从服务器分离开来，又继续在处理器/内存组合和驱动器之间提供同样的逻辑关系?如何实现共享存储池的成本、规模和可管理性等方面的效率，同时仍提供局部性的好处?据说DriveScale通过利用Hadoop数据存储，就可以做到这点。

然而，希望为大数据应用安装和管理资源的存储专业人员主要受制于Hadoop架构，这种架构本身是针对服务器上的本地驱动器来优化的。随着数据量不断增加，唯一的办法就是购买数量越来越多的服务器，不仅要满足计算需求，还要提供更大的存储容量。DriveScale让用户得以在独立于计算容量的情况下单独购置存储容量，从而在每个层面做到容量正好。

DriveScale的产品管理副总裁S.K. Vinod说：“没有理由无法将大家在数据中心习惯获得的专有纵向扩展基础设施环境具有的优点引入到商用横向扩展环境。我们为IT管理员提供了构建和运行弹性大数据基础设施的工具，在这种基础设施环境下，服务器和磁盘子系统可以根据需要，实时分解和重组。单个驱动器从JBOD连接磁盘组成的共享池配置给服务器，因而消除了成本不相称。”

Hedvig

Hedvig分布式存储平台提供了一种统一解决方案，让你可以定制结合低成本商用硬件和高性能存储，以支持任何应用程序、虚拟机管理程序、容器或云。据说它可以针对数据块、文件和对象存储，为任何规模的任何计算提供存储，具有可编程性，而且支持任何操作系统、虚拟机管理程序或容器。此外，混合多站点复制使用独特的灾难恢复策略来保护每个应用程序，并通过跨多个数据中心或云的存储集群提供高可用性。最后，高级数据服务让用户可以借助可按照卷来选择的一系列企业服务，定制存储。

Hedvig公司首席执行官兼创始人阿维纳什·拉克希曼(Avinash Lakshman)说：“对于Hadoop来说，如果你想要一些功能由HDFS来处理，其他功能由存储平台来处理，这至关重要。”

Nimble

Nimble存储预测闪存平台据说可显著提高分析应用和大数据工作负载的性能。它通过结合闪存性能和预测分析，防止IT复杂性导致的数据速度面临的障碍来做到这一点。

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】