信息时代 大数据有用开源工具

开源
这是个信息“泛滥”的时代,大数据量司空见惯,企业处理大数据的需求也越来越大。首先,关系型数据库和桌面分析或者虚拟化包不能处理大数据,相反,运行在数千台服务器上的大量并行软件需要做这个工作。

这是个信息“泛滥”的时代,大数据量司空见惯,企业处理大数据的需求也越来越大。本文梳理一下“大数据”的解决方案。

 

首先,关系型数据库和桌面分析或者虚拟化包不能处理大数据,相反,运行在数千台服务器上的大量并行软件需要做这个工作。许多机构转向开源工具,比如Apache的 Hadoop来处理大数据。比如Twitter发送登陆信息到Hadoop,并直接写入HDFS,Hadoop文件系统。

Hadoop支持数据密集的应用部署在数千节点和数个PB, David Hill, Mesabi Group 主席表示。但是,大数据在针对不同类型的应用时,确不能一概而论。比如Hadoop并不一定适合所有的案例,Hill警告说。

大数据的捕捉、存储、分析,依靠特殊的应用的特性,Hill强调。举例scale-out网络连接的存储EMC Isilon或IBM的SONAS,可能对于使用非结构化的数据比如图片、视频,会更好。

大数据处理的类型

大数据的处理,可以归为3个基本类型,Revolution Analytics的执行副总Mike Minelli表示,信息管理、商业智能,以及智能分析。信息管理捕捉和存储信息,BI分析数据,看过去发生的情况,智能分析则是对于数据的预测。Minelli说。

Revolution analytics提供开源R语言和 Revolution R Enterprise,提供TB量级数据的高级分析。Revolution Analytics正在开发Hadoop连接器和R语言在Google的Map/Reduce框架上的能力。

处理大数据的工具

提供了处理大数据分析能力的专有软件包括 AsterData;IBM的专有软件Netezza ; Datameer, 建立在Apache的Hadoop上的专有软件,以及Paraccel。IBM的Netezza,在它的InfoSphere产品中。Oracle 的Exadata,,以及EMC的Greenplum也是处理大数据量的专有工具。

EMC引入了Greenplum数据库的免费社区版本,该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。处理大数据量的开源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具,提供了报告、分析、ETLETL (解压、转换、加载) ,针对大量的并行分析数据库,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告,通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。

开源工具VS专有工具

开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。Revolution Analytics的Minelli表示。

数据量在持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。Twitter选择Hadoop,其中重要的原因是专有工具的费用太高。

更长远的来看,开源工具使企业创建新的分析技术,更好的处理非结构化的语言,比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。

另外一个领域就是开源与专有工具的混合使用。

短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。

【编辑推荐】

  1. 天涯运维:如何给企业选择适合的开源技术构架
  2. 回眸:开源技术历史中的九个重大事件
  3. 视点:Ubuntu 10.04如何进行开源技术的商业化
  4. 带你探寻开源技术中的五大开源协议
责任编辑:张浩 来源: Linuxeden
相关推荐

2013-11-29 13:31:52

隐私数据安全

2011-05-20 09:10:26

制造业绿色IT用友

2016-01-11 17:02:37

畅享网

2018-05-21 20:58:44

人工智能云服务企业

2016-10-09 13:45:29

信息资本市场大数据

2013-10-31 11:40:43

2012-03-31 15:54:35

戴尔戴尔咨询

2012-04-01 14:57:46

2018-06-04 21:47:01

2013-11-11 18:19:44

信息时代知识工程

2013-04-15 11:41:40

信息安全大数据大数据全球技术峰会

2012-09-13 09:52:14

大数据数据应用开源工具

2019-04-08 17:16:43

大数据开源工具

2022-03-22 22:49:57

大数据信息安全安全

2016-09-13 22:23:52

2015-03-16 13:49:27

大数据大数据误区大数据错误

2016-09-27 21:35:28

BossiesSparkTensorFlow

2009-08-04 14:41:12

通信网络管理网络结构网络服务技术

2020-10-28 15:06:12

大数据科技技术

2009-10-29 10:27:21

点赞
收藏

51CTO技术栈公众号