Google强大的搜寻引擎每天处理庞大的搜寻数据,靠的是数十万的伺服器同时作工。然而一般企业并无法使用Google所用的内部搜寻引擎工具,所以,拥有处理大数据工具的分散式运算平台Hadoop应运而生。
但问题是Hadoop使用上有难度,数据处理公司Cloudera决心要解决这个问题。
过去的公司企业仰赖传统的关联式资料库和数据仓储就可应付所需,然而,今日电子商务、社交媒体和行动运算不断成长使得资料量暴增,许多企业便开 始使用Hadoop等的工具处理数据。现在,Cloudera现在p更针对Hadoop平台推出类Google的搜寻引擎:Cloudera Search。
搜寻引擎让Hadoop更平易近人
Cloudera希望客户能在Hadoop壮大之前就将资料储存进去,并将之整合入平台。但使用Hadoop平台与资料互动必须要懂得MapReduce运算技术,也就是说你得会写Java语言,这对许多使用者来说并不方便。
虽然Hadoop已经推出许多工具让使用上更便利,但Cloudera希望更进一步建立一个Hadoop的搜寻引擎。产品经理泽德勒维斯基 (Charles Zedlewski)说:「数万开发者可能知道怎么用MapReduce,执行SQL指令,但会使用搜寻引擎的人有数十亿人。」
Cloudera Search能够与Hadoop分散式档案系统(HDFS)或资料库系统Hbase整合,使用者可以输入搜寻字串后就找到一串搜寻结果。这项搜寻工具是以Apache Solr搜寻器为基础。
市场研究公司RedMonk分析师欧葛瑞迪(Stephen O’Grady)表示:「每多一项数据处理工具对Hadoop都有好处……从写MapReduce程式到支援SQL语法的Hive或Pig等套件,每项工具都让数据处理更有效率。」
所有大数据都该放入Hadoop吗?
这对改善Hadoop可用性的确帮助不少,但问题是:客户是否真的有需要将它们所有的数据都放入Hadoop?微软今年稍早发表一份报告,主张 大多数的公司只需要增加丛集伺服器的使用数量,不须尝试用单台伺服器处理数据,报告指出,甚至雅虎和脸书两家最需要数据处理效能的公司,也是透过增加伺服 器丛集解决效能问题。
但许多公司正面临数据不断增长的问题,一开始就加入Hadoop是不错的选择,RedMonk过去也是Hadoop的使用者,但最近转用BigQuery等其他的Google资料库工具,原因是他们的数据在量上本质就比较小,而且成长的速度也没有分析师原本预测得快。
但欧葛瑞迪说:「如果我们能够更快速地获得数据,就一定会使用Hadoop!」