企业应慎重选择一款大数据设备,以便确保其对于企业业务的价值。
似乎选择一款单一的、优化架构的方法来处理大数据是有一定意义的。
一款专门由硬件和软件组合所搭建起来的设备显然应该要比手工胡乱拼凑起来的设备要好很多,不是吗?
上述这一逻辑已然在数据管理人员的圈子中得到了广泛的认同。
例如,甲骨文已经收购了Exadata公司,并创建了一款被称为甲骨文大数据设备的系统。该结合了Sun的硬件与各种不同的软件方法,以便在一款设备中处理不同类型的数据。
而IBM公司在收购了Netezza公司之后,也采取了类似的方法,创建了一套被称为PureData的设备。
另外,戴尔和惠普也都有推出一系列的大数据应用设备;Teradata公司收购了Aster公司,并随后推出了其集成的大数据平台;日立数据系统具有超级横向扩充平台(Hyper Scale-Out Platform,HSP);而EMC公司则推出了其数据计算设备;存储专家DataDirect Networks公司有其被命名为SFA12K的大数据设备。
企业可以有许多不同的方式来进行大数据分析——自行构建方法,并将大数据作为服务只是一对常用的组合,但这些方法都充满了问题,而供应商正在努力帮助您企业避免。对于企业对大数据的利用而言,采用一款大数据设备的方法似乎正风靡一时,但大数据设备的选择是否真的如同其看上去那么简单呢?
要深入挖掘,首先就要充分了解到底什么是大数据。
关于大数据的五大特性
往往在太多数时候,大数据仍然仅被关注到了其庞大的数据信息量。然而,如果是这样的话,那么这应该只是一个大量数据的问题,而不是大数据;庞大的数据量只是大数据的五大特征之一。
想要充分理解大数据所带来的问题,就必须了解大数据的其他几个方面的特性,以及由这几大特性综合作用所为大数据世界创造的问题和提供的相关机遇。
如前所述,有海量的数据被处理。然而,如果所有这些被处理的数据都是正式的、结构化的数据,那么,拥有适当的横向扩展计算、存储和网络平台的标准数据库应该是足够的。
当您看到数据种类的多样性时,这些问题才真正开始突显,混合了结构化数据和非结构化数据的数据集合亟待进行处理。大多数的数据具有一定的层次结构,无论其承载的载体是否是一个微软Word文档的格式;或是以逗号分隔的机器对机器的数据;或是图像,视频或音频数据。然后是数据的传输速度的特性,这一特性这有2个方面。首先是数据被呈现给分析环境的速度。例如,实时数据分析处理物联网的数据,往往需要处理大量小数据包的数据,没有人能够延迟来使其减缓。其次是分析得出结果的速度。
例如,在金融交易中,与其他交易员相比,下游的交易员得到结果往往要稍微晚几毫秒的时间。而在生产线上,对于某个问题的识别往往需要在其成为一个问题之前采取行动,这样才能够使得生产线得以继续经营,而不是停掉整条生产线来进行处理。大数据的准确性这一特性也很重要。糟糕的数据分析往往会导致质量很差的输出。
因此,任何大数据系统必须能够检查其所分析的数据的质量,或者上游的数据源是能够值得信任的。***的一大特性是大数据的价值。其实,这一点才是真正驱动企业进行任何大数据活动项目的推动因素。其应该在大数据的五大特性中被排在***位。进行大数据分析的决策必须建立在其价值之上,从而使得企业得出相应结果:这种分析是否真的是值得的?
其对于企业业务活动及其成功的真正影响在何处?在某些情况下,Quocirca公司已经看到了大数据分析所带来的一些进展,因为这“似乎的确是个好主意”——但在为何要使用这种IT资源的背后必须要有扎实的商业理由。因此,任何向您企业吹捧一款大数据系统的供应商,都必须有相应的信息来针对您企业大数据的每种特性。因此,将各个方面的数据都纳入关系数据库中,不强迫结构化数据作为二进制大对象不应是处理大数据的方式。
同样,那些在象牙塔中宣称关系型数据库的日子已经结束了,所有一切数据都可以纳入一款持续的Hadoop存储或NoSQL数据库的说法也是错误的。然而,针对专业的不同数据系统采取一种断开连接的方法也将无法奏效。例如,对数据缩减非持久的Hadoop系统采用MapReduce,分离关系和非关系的持久性存储将导致无法处理大数据速率的要求。
单一的分析方法
对于真正的大数据分析,大数据的五大特性需要加以处理,而数据以一种单一的方法汇聚,实际可以进行业务分析。这便是设备的方式发挥其作用的时候了。通过借助Hadoop环境,并将其在同一台设备中与关系型和非关系型数据存储进行混合,智能化可内置于整个系统,以确保恰当的数据在恰当的时间驻留在合适的存储中。所需的分析层可以优化,以确保性能是符合分析目的。这是一个所有相关供应商都在为之战斗的一个战场。
然而,仍有人认为购买一个大的数据设备需要注意的领域。对于大多数组织而言,大数据将涉及大量的数据。为了提供所需的分析速度,大数据设备中的大多数将有大量的内存,使内存分析发生。因此,确保设备有足够的内存是采购大数据设备所需考虑的一大关键。该设备将需要扩展,太小的内存将导致数据系统的交付将比预期的慢,然后数据就会在低速存储系统中进出。查看设备是否是纯粹旋转的,基于磁力盘额。随着固态存储器的出现,从磁盘检索数据的速度已大幅增加,但仍远低于存储系统。使用固态存储器的系统比使用磁盘的速度快得多。此外,要注意混合系统,其是顶部层的固态和较低层的磁盘存储的一个混合。除非有一个智能的软件管理随时驻留在此的数据,当分析系统试图从内存中获取数据看到数据不在那里,然后下降到固态,发现数据不存在,并下降到磁盘,并将数据从那里纳入到内存时,有可能是主要的性能问题。
展望未来
现在需要寻求将Hadoop,NoSQL与关系型数据库汇集到一起的系统的方法。然而,也可以展望未来。很长一段时间,Quocirca建议不要使用Hadoop作为一个持久性存储,而不是取决于其MapReduce的能力,作为数据过滤器,来降低在任何环境所需分析的数据量。
MapR公司是Apache Drill项目的领军,而Hortonworks则推出了其Hive Stinger计划,两大项目均显示了在在Hadoop存储中启用SQL查询的承诺。诸如IBM和Actian公司这样的供应商,有商业化的Hadoop-SQL产品,能够处理一些目前Hadoop作为一个持久性存储的速度问题。在NoSQL终端的数据存储,Basho公司则采取一种不同的方法。通过启用其Riak NoSQL数据库节点的网格,每个节点处理大数据的不同方面,他们希望能够创造出“所有规则的其中一环”:一个可以针对不同数据类型的变化速度处理数据压缩的数据库。
***,寻找不会将您捆绑在特定工作方法的系统。使用现有的商业智能(BI)系统的技能已经建立,而无需学习新的技能,大数据系统的选择应该能够使现有的BI工具能够分层。现在,大数据分析仍处于相对不成熟的水平。企业自行打造的方法不太可能能够提供投资回报率,而一款专业的大数据设备则可能只是在短时间内解决了某个问题。因此,企业应谨慎选择一款大数据设备,确保该项业务的价值足以弥补您企业的该项支出。