MongoDB的所有者10gen宣布其Hadoop连接器将会在本周二进行更新升级。新版本中将包括一些非常重要的新功能并且加入了对Hive(类似SQL框架和Hadoop的查询语言)的支持,它能够把本地MongoDB文件存储到Hadoop上,还能在MongoDB的同一的数据集合中运行增量的MapReduce作业。
公司的产品营销总监Kelly Stirman表示,MongoDB的Hadoop连接器已经上市了一段时间,而且被许多企业机构广泛的运用。不过周二的更新将会是MongoDB自2012年4月发布以来最为重要的一次升级。
也许大多数人并没有注意到,MongoDB和Hadoop在过去的几年已经变得非常的流行。Stirman表示,由于支持JSON类型文件,在很多Web和手机应用中,MongoDB都是被作为操作数据库,而Hadoop也是被很多公司选作大数据处理和分析平台。特别是在大型网络公司和世界500强企业,通常都并排部署了MongoDB和Hadoop。
MongoDB连接器现在已经非常的流行,因为它允许用户可以在数据库中预先处理MongoDB数据,而无需把数据发送到Hadoop中处理。在现有支持MapReduce 和Pig的基础上增加对Hive的支持,由于Hive中类似SQL的特性,使用MongoDB连接器来连接Hadoop数据,已经被很多企业广泛使用。
在Hadoop分布式文件系统上支持MongoDB本地BSON文件意味着用户可以备份他们的数据库资料到Hadoop中,同时用户也可以处理这些数据资料,这样就避免了在MongoDB集群上添加撤销负载。
Stirman把在MongoDB集合上运行增量MapReduce作业的能力称为近似 “浓缩进程”。 用户以前只能在数据库中一个新的集合上才可以运行MapReduce作业,但是MongoUpdateWriteable这种新的技术特性可以让用户在现有的集合上运行MapReduce作业。
数据库行业观察人士可能会质疑MongoDB的新特性,它是不是仅仅会改善MongoDB-Hadoop开发环境的现有功能,或者它是否能以某种方式来影响市场份额,这似乎是Stirman未来需要考虑的问题,至少目前已经考虑到那些使用Hadoop的公司了。Stirman指出10gen在营销上可能会遇到像Cassandra和HBase这样有竞争力的对手,不过目前而言, “从本质上来说,这三者(Cassandra、HBase以及MongoDB)相对于Hadoop,都是对等的。”
对等?也许吧——至少在某种程度上用户还是愿意扩展Hadoopde 的规模来弥补数据库扩展性的欠缺。当然,也有很多用户选择其他的NoSQL数据库产品而非MongoDB,这是源于所选的应用程序不同。