据Gigaom报道,谷歌日前对BigQuery进行了更新,加入新的聚合功能。
以下为文章全文:
BigQuery的产品经理Ju-kay Kwek在一篇博客中公布了BigQuery的***更新,他表示用户现在可以加入大型表、导入和查询时间戳数据,以及使大量非重复数据的集合进行聚合。
BigQuery是一个让用户使用类似SQL的查询来分析TB大小的数据集的云服务。它基于谷歌的Dremel查询系统,可以在其所处的位置(即Google File System或BigTable)上分析数据,并可在谷歌内部使用,分析各种不同的数据集。谷歌声称在BigQuery运行交互式查询速度,对实时性和复杂性的要求完全是MapReduce(上一代处理大型数据集的工具)所不能达到的。当然,对于批处理,BigQuery同样胜任,而且费用更低。
因此,从一些类似Dremel和其商业发行版BigQuery上可获得潜在好处——不输于Hadoop生态系统,Hadoop本身已依赖MapReduce进行处理很多年。在过去一年,我们已经看到许多初创公司和大型厂商为坐落在HDFS上数据发布自己的类Dremel(或类MPP)技术。
撇开这个背景不谈,在BigQuery中加入连接大型数据集的能力可能是最重要的新功能。连接是大多数环境中数据分析的一个重要方面,因为彼此相关的数据并不总是驻留在同一个表,甚至在同一个集群中。(王旭东/编译 仲浩/审校)
连接到BigQuery的方法
Kwek说明了为什么加入新的聚合功能是重要的:
当我们的App Engine团队需要调和应用程序计费和使用信息时,Big JOIN可以让团队在60秒内合并 2TB的使用数据和10 GB的配置数据。使用集成的Tableau客户端的团队可以快速的发现一些意想不到的趋势。