谷歌更新BigQuery 允许在其中加入大型数据集-51CTO.COM

据Gigaom报道，谷歌日前对BigQuery进行了更新，加入新的聚合功能。

以下为文章全文：

BigQuery的产品经理Ju-kay Kwek在一篇博客中公布了BigQuery的***更新，他表示用户现在可以加入大型表、导入和查询时间戳数据，以及使大量非重复数据的集合进行聚合。

BigQuery是一个让用户使用类似SQL的查询来分析TB大小的数据集的云服务。它基于谷歌的Dremel查询系统，可以在其所处的位置(即Google File System或BigTable)上分析数据，并可在谷歌内部使用，分析各种不同的数据集。谷歌声称在BigQuery运行交互式查询速度，对实时性和复杂性的要求完全是MapReduce(上一代处理大型数据集的工具)所不能达到的。当然，对于批处理，BigQuery同样胜任，而且费用更低。

因此，从一些类似Dremel和其商业发行版BigQuery上可获得潜在好处——不输于Hadoop生态系统，Hadoop本身已依赖MapReduce进行处理很多年。在过去一年，我们已经看到许多初创公司和大型厂商为坐落在HDFS上数据发布自己的类Dremel(或类MPP)技术。

撇开这个背景不谈，在BigQuery中加入连接大型数据集的能力可能是最重要的新功能。连接是大多数环境中数据分析的一个重要方面，因为彼此相关的数据并不总是驻留在同一个表，甚至在同一个集群中。(王旭东/编译仲浩/审校)

连接到BigQuery的方法

Kwek说明了为什么加入新的聚合功能是重要的：

当我们的App Engine团队需要调和应用程序计费和使用信息时，Big JOIN可以让团队在60秒内合并 2TB的使用数据和10 GB的配置数据。使用集成的Tableau客户端的团队可以快速的发现一些意想不到的趋势。