Databricks Cloud是一款基于云计算的Spark大数据处理引擎,它实现了一些更新特性,旨在满足来自数据科学家社区的功能需求。
Databricks公司在去年六月份发布的版本功能是不太完善的,该公司既有客户都在考虑他们的应用是否可以迁移到基于云计算的基础设施。在此过程中,有许多组织都在等待他们想要的产品。今天,Databricks公司终于向所有期待者推出了Databricks Cloud服务。
Databricks Cloud通用版基于Apache Spark 1.4,该版本中最突出的特性是支持R语言的接口,一些Spark用户一直在提议支持R语言,Spark开发者们去年夏天就许诺一定会支持。R语言是***的分析程序编程语言之一,在数据科学家群体中广泛应用,Spark集成对R语言的支持将实现可以用R语言针对巨大数据存储构建和运行应用。
更好的协作和更多控制
Spark1.4还包括内建对GitHub版本工具的集成,它支持多人开发团队跟踪项目变化,不管是做分析算法还是应用开发,都能改善团队协作。此外,新发布版本给IT管理员们提供了更多功能,可以基于角色分组给终端用户分配权限,改善了访问控制功能。Databricks公司说将在该公司产品中支持那些功能特性,预计下半年可以实现。
Databricks公司是由Spark创始人MateiZaharia与其他人联合创建的,是Apache软件基金会Spark开源项目的主要贡献机构。最开始的时候,Databricks公司在AWS云平台上运行产品版本,Databricks Cloud的主要吸引力在于它给用户提供了访问Sparks功能特性集的途径,包括内存中处理数据的能力,无需安装产品本身就能用了。
BennyBlum就是这样一位用户。Blum是Databricks公司的客户Sellpoints公司负责产品和数据科学的副总裁,这是一家电子商务优化服务供应商,该公司帮助有需求的公司网站获得更多流量,更好地投放他们的在线广告给潜在客户。他说,他喜欢Spark的功能,但是又不想在内部管理这项技术,因为该技术相对复杂,需要投入大量的时间进行研究。
Blum说:“我们可以建立自己的集群并运行Spark,但是我们对Spark还是相当陌生的,它需要大量资源才能确保集群正常工作。”
利用Spark和R语言回归传统方式
与R语言的集成是令Blum感兴趣的另一个特性。Sellpoints公司在引入Databricks Cloud之前大量使用R语言做数据分析,公司大量数据科学家都喜欢这种语言。但是因为R语言在Spark大数据引擎以前的版本中不支持,所以在今年刚开始时候Sellpoints公司考虑实施Databricks技术时放弃了考虑R语言。但是他们现在将寻求可以重新实施支持R语言的具体项目。
R语言支持可以说是Blum认为Spark存在的主要缺陷之一。既然该平台主要是为了处理大量数据处理而设计,那么其机器学习算法库对于较小的任务来说很难实施,因为小任务需要灵活性,这类应用仍然需要开发,在投入生产应用之前也需要经常测试和更新。R原本就是针对在单一计算机上内存中处理任务而设计的,所以它更适合处理这类应用开发的灵活性。Blum认为,新的接口(支持R语言)帮助在数据科学家和其它终端用户之间的鸿沟上架起了桥梁。
他说:“事实上,Spark本就是为处理大规模数据设计的,所以Spark中的机器学习库也是限制在那个规模上使用才更有效的。”