今年九月在纽约的O’Reilly媒体会议上大数据技术有两大呼声:企业级和敏捷。我们知道企业级的商务智能产品有Oracle Hyperion、SAP BusinessObjects和IBM Cogonos,而敏捷产品有QlikView、Tableau和TIBCO Spotfire。
如果事实证明大数据必须购买企业级的产品,那么就意味着大数据会花大本钱。但这并非绝对,通过使用大数据敏捷技术,各种规模的企业都可以控制成本,从大数据中获益。至关重要的是尽可能降低成本并***化的了解大数据集,一旦数据被转化为可用便具有对业务的洞察力,然后以各种方式将问题汇总,并发挥企业技术的优势解决问题。
企业级 VS 敏捷BI
首先让我们来看看BI世界里发生了什么。企业级BI设计的意图是为了满足大型企业中许多信息孤岛的要求。典型场景如下:信息孤岛中的数据通过ETL 的过程被清洗和规范化,进入到数据仓库中,成为一个可用的版本。然后,通过报表和分析技术,数据被切片、切块,并交付给成千上万的人。企业级BI是一个复杂的过程,它通过多种应用程序的协同工作,以满足企业中成千上万人的需求。企业级BI的问题是它的配置需要花费很长时间,所有大型的复杂系统都十分难以配置和改动。
敏捷BI可以解决企业BI所面对的诸多问题。敏捷BI可以以高度互动的方式为最终用户排序、筛选和统计数据,而不需要BI专家的指导。企业采用敏捷BI技术,可以更广泛的享受数据所体现的价值。
企业级 VS 敏捷的大数据
现在是大数据技术出场的时候了,EMC Greenplum、Teradata Aster Data等是企业级的代表,而1010data、Pervasive DataRush等则是敏捷的代表。这两类厂商都意识到了企业级和敏捷在BI领域的鸿沟,并努力解决这个问题。企业级大数据供应商知道他们需要敏捷,而敏捷的大数据厂商知道他们需要提供高质量的企业级解决方案。
企业级大数据供应商推出了一些灵活性解决方案。Greenplum推出了一个名为Chorus的产品,以提供一个协作环境,支持数据分析和查找的过程。Aster提供了一系列SQL扩展,允许Hadoop类型的查询使用类似与SQL的语法。在实现敏捷方面,这些产品的扩展是很大的进步,但对 Greenplum和Aster企业级技术所带来的高昂价格标签,人们更感兴趣的问题是:能否以敏捷的大数据技术弥补企业级技术的不足,以更少的投资获得更多的回报?
敏捷的大数据解决企业级平台的难题
回头看看我们所提到的三种敏捷的大数据技术,首先的问题是:它们为什么被称作是敏捷的?
答案其实很简单,它们可以让用户获取非凡的数据洞察力,并削减价格。如下:
- 只需经过些许培训,用户就可以使用Splunk进行数据的查询、筛选和显示
- 1010data以电子表格的形式为用户提供大数据的处理界面
- Pervasive DataRush以图形界面并行、高效地处理数据
一个敏捷的大数据在大批量处理中的案例
David Inbar是Pervasive的市场发展战略办公室的***执行官,在价格低廉的做了一个实验演示,处理了足够庞大的可称之为大数据的数据。
DataRush的工具包消除了程序员并行编程的复杂度。即便是科技狂人,相对编写一个单线程的程序,并行编程也无异于是火箭科学。 DataRush为并行编程提供了一种编程模型,以替代艰难的多核函数编码。比如,你可以编写一个基于组件模型的工作流应用程序,该工具包会自动将其转化为该工作流所允许的并行应用程序。
大数据系统如Hadoop具有横向扩展性。虽然DataRush可以承担此类角色,并能在数千台计算机中安装,但是它的不同之处在于它一般在一台计算机中安装,用以发掘多核系统的潜能。
DataRush最有特色的功能是它并不需要你知道计算机究竟有多少个核,当编写一个DataRush应用程序时,它会自动感知计算机上核心的数目,并***限度地利用,以进行并行处理。
将敏捷组件集合起来构建企业级系统
敏捷技术在针对大数据创建智能业务系统方面具有极大优势,但仍然有相当长的路要走。敏捷BI能够降低成本,面对大数据的挑战,它将证明它的价值。