谷歌目前正着力推动一套Java SDK,旨在将其与Google Cloud Dataflow托管服务加以整合,从而将对流数据的实时分析能力作为这套平台的拓展支持组成部分。
[[125343]]
谷歌公司正力图将其Google Cloud Dataflow平台拓展至其它语言及环境当中。
谷歌目前正着力推动一套Java SDK,旨在将其与Google Cloud Dataflow托管服务加以整合,从而将对流数据的实时分析能力作为这套平台的拓展支持组成部分。
通过以开源形式进行共享,这套SDK能够充当基础、帮助Dataflow获得与其它语言及执行环境相适应的能力,谷歌公司软件工程师Sam McVeety在最近的一份公告当中指出。“我们已经积累到了丰富的经验,了解到该如何将数据转化为情报、同时让原本的FlumeJava编程模型(以Cloud Dataflow为基础)继续在谷歌公司内部得以发展。”
谷歌方面希望能够在对Dataflow服务进行拓展之外,同时将流数据与批处理模式加以结合从而实现进一步创新。“随着数据规模的不断增长,编程语言与执行模式的数量也在持续提升,”McVeety表示。“我们目前正在为该SDK打造一款面向Python的第三套版本,旨在为开发人员提供更多可行性选项并保证Dataflow能够访问更多类型的应用程序。可重复使用的编程模式可以称得上帮助开发人员提升工作效率的核心利器。Cloud Dataflow SDK的出现则恰好为批量与流数据处理任务带来了一套统一化执行模式。”
对于其它环境,McVeety指出现代开发、特别是在云环境当中的开发工作主要涉及异构服务与多种机制间的相互组合。“随着Storm、Spark以及日益扩展的Hadoop家族的不断成熟,开发人员不得不面对由编程模式断层带来的严峻挑战。我们希望帮助开发人员摆脱疲于奔命的负面态势,通过支持可作用于多种环境的执行与服务方案为大家带来更多部署平台选项。”
Google Cloud Dataflow平台于今年六月首次公布,其定位在于为数据处理任务提供一套托管服务模型。尽管目前尚处于alpha测试阶段且仅向特定“白名单”用户(新用户必须通过申请方能接入该服务)开放,但Cloud Dataflow能够切实简化执行流程、帮助用户在无需分神于底层数据管道及处理基础设施维护的前提下将精力集中在真正的分析工作身上。我们此前曾经发布过一篇Cloud Dataflow分析文章,其中指出该项目虽然还称不上Hadoop家族中的杀手级项目、但却能够帮助Google Cloud用户迎来更为丰富的应用程序备选方案。
英文:http://www.infoworld.com/article/2861450/application-development/google-hitches-cloud-data-analysis-service-to-java-sdk.html