正如存储技术分析师Greg Schulz所言,“大数据无与伦比,它拥有承载一切的能力。”也就是说目前市场上已经存在多款独立存储工具,旨在帮助存储管理员打理规模日益膨胀的大数据海洋。同样在意料之中的是,其中大部分与Hadoop关系密切。
SGI InfiniteStorage
SGI InfiniteStorage通过虚拟化技术让存储转化为一整套混合体系,其中既包含性能超群的闪存机制、又拥有成本低廉的磁带方案。而这一切都建立在数据始终在线的基础之上,也就是实现数据对用户的透明化。
“SGI InfiniteStorage硬件及软件生态系统是过去二十年来SGI解决大数据问题的有力保障,同时也为全球范围内包括气象预报、生命科学、制造业、媒体与教育等要求最严苛的数据管理环境提供应对方案,”SGI公司存储产品营销部门主管Floyd Christofferson指出。
Red Hat Storage Server 2.0
根据Linux基金会最近发布的一份报告称,Linux已经成为大数据实施的主要系统平台。由此看来,红帽公司在大数据存储领域占有一席之地也就不难理解了。Red Hat Storage Server 2.0使得被保存及管理在某处的数据能够接受多种企业工作负载的访问,红帽存储业务部门副总裁兼总经理Ranga Rangachari表示。
“鉴于目前数据规模的持续增长,企业用户已经很难承受由此带来的专用存储需求,”Rangachari解释道。“理想的解决办法是将数据驻留在一套通用型企业资料库中,并允许各类企业工作负载随时加以访问。”
有鉴于此,红帽公司已经与英特尔开展合作,意在创建一套更加理想的开源大数据应用。作为宏大构想的第一步,红帽充分利用英特尔近期推出的Apache Hadoop软件发行版中的优势,将其与Red Hat Storage Server 2.0与红帽企业Linux操作系统相整合。除此之外,红帽公司开发的Storage Apache Hadoop插件也即将推向开源技术社区,进而成为企业Hadoop部署工作中的存储选项之一。
“红帽公司在企业级大数据解决方案领域可谓独领风骚,而且根据IDC公司的预测,这部分市场总份额将由2011年的60亿美元迅速增长至2016年的238亿美元,”IDC公司分析师Ashish Nadkarni告诉我们。“红帽公司是仅有的几家能够提供综合性大数据解决方案的基础设施供应商之一,这得益于该公司在本地或云交付模式领域所拥有的雄厚基础设施解决方案及应用平台。”
EMC Pivotal HD
说起最新Hadoop发行版,EMC公司的Pivotal HD绝对值得一提,它的作用在于将大数据与EMC Greenplum大规模并行处理(简称MPP)数据库相整合。借由一套名为HAWQ的引擎技术,EMC赋予了Hadoop SQL流程在查询及工作负载方面百倍以上的性能提升(据称)。
“Hadoop意义非凡、同时也是解开大数据转换潜能的关键;我们则希望能够将其与Greenplum技术整合起来,进而推动Hadoop获得更为广泛的普及度,”EMC Greenplum部门产品高级副总裁Scott Yara宣称。#p#
DataDirect Hadoop Apache Hive Driver
Hadoop最令人着迷的特性之一在于将非结构化数据转化为足以补充传统分析工作情报缺失的宝贵资源。这项挑战的难点在于如何将Hadoop当中存储的数据与现有商务智能及数据分析工具相对接。而根据Progress DataDirect公司数据连接部门副总裁Michael Benedict的说法,DataDirect driver for Apache Hive号称是惟一一款能够在多套Hadoop发行版中实现开箱即用的全兼容式驱动程序。
“如果没有DataDirect Hive Driver的帮助,我们很难想象该如何访问并分析数据——Hadoop的容量如此庞大,用户几乎无法访问、尤其是快速访问到自己需要的信息,”Benedict指出。“而DataDirect Hadoop Driver的意义正在于帮助用户以实时方式从Hive Data Warehouse中访问信息、进而简化数据分析的难度。”
Adaptec HBA
PMC-Sierra公司刚刚为大数据存储发布了一款主机总结适配器(简称HBA),这就是Adaptec 71605H总线适配器(或者被称为Series 7H)。这些PCIe HBA在良好的兼容性前提下带来了高性能I/O与低延迟表现。它们利用PMC的PM8018 16x6G SAS协议控制器并支持SAS与SATA接口。它们还能够最高接入16款固态硬盘或磁盘驱动器。HBA每秒能够执行超过百万次输入/输出操作(即IOPS),数据持续吞吐量则达到6.6 GB每秒。
“HBA最重要的适用范围在于数据中心环境下应对大量接入存储驱动器的同时,还要为持续增长的数据容量提供高密度存储与低成本维护,”PMC公司企业存储部门产品营销主管Zaki Hassan表示。“Seris 7H HBA在可用端口数量方面达到市场同类商业解决方案的两倍。这些端口数量庞大但却更加低调的HBA帮助数据中心将压缩运营成本、优化存储连接变为可能。”
Attunity RepliWeb for Enterprise File Replication
Attunity RepliWeb for Enterprise File Replication (即企业文件复制,简称EFR) 解决的是大数据技术面临的另一个重要课题——如何对大规模存储数据进行复制。它的设计目的在于简化数据文件在Apache Hadoop数据集合之间的复制流程。Attunity公司全球营销副总裁Matt Benati解释称,Hadoop平台在设计初衷上只考虑到大量数据消耗状况;然而某些企业可能还保留着一些较小的数据段,希望将其与大数据结合以进行更加精确的业务分析。Attunity公司能够帮助这类企业用户打理好从各类渠道进入Hadoop、有大有小的多种数据集。
“在合理的时耗之内通过广域网移动数据绝非易事,”Benati补充道。“Attunity公司的内存内数据流处理能力及相关技术优化使得大数据迁移更加轻松——无论是在本地还是云环境之下。”
Shadoop
Hadoop各款开源发行版在安全功能方面的关注并不突出,针对这一状况,商业发行版也就应运而生。这类发行版通常会把访问控制及登录等机制纳入进来。“Shadoop为Hadoop集群带来了以角色为基础的访问控制机制,具备日志审计及Kerberos(由麻省理工学院开发的一套安全认证系统)验证功能,” Enterprise Management Associate分析师Scott Crawford解释道。
IBM InfoSphere Guardium
Crawford指出,现有数据库安全方案市场已经意识到大数据浪潮给自身带来的巨大影响。虽然这一规模化数据管理领域蕴藏着丰厚的财富,但目前还没有多少足以应用大数据技术挑战的解决方案。不过情况正在发生变化。
IBM公司就是这方面的先驱者之一。“IBM InfoSphere Guardium专门针对大数据环境安全难题提供了应对工具,”Crawford如是说。