BigQuery谷歌企业级大数据分析平台初体验

大数据
自Google发布BigQuery以来,国内除一些资讯和简短的介绍性文章外,似乎很少有人提及。作为Google基于云平台的企业级数据分析服务,BigQuery还是值得深入了解的,至少它是一种可选的低成本解决方案。

作者将在本文中介绍一些BigQuery的基本情况,并结合Paras Doshi最近撰写的关于BigQuery的一些使用体会,对BigQuery来一个深入了解。

什么是BigQuery ?

BigQuery是真正为大数据而生的企业级云计算产品,其核心是云平台的一项基础服务(PaaS),用于对TB级别的大数据进行实时的分析处理。

单纯从技术上来看,BigQuery就是一个在云端的SQL服务(类SQL),提供对海量数据的实时分析;据Google工程师所说,其处理5个TB数据,15秒即可返回结果。

另外,BigQuery是一项付费服务,旨在企业需要大规模数据分析,又无需承担硬件设备的投资的情况下开展大数据业务。每月每1GB数据的存储费用是12美分;实时分析服务每月每处理1GB数据收费3.5美分,每月前100GB的实时数据分析免费。

Google BigQuery价格表

Google BigQuery价格表

详细价格表请参考:https://developers.google.com/bigquery/docs/pricing

BigQuery初体验——快!

Paras Doshi在博客中写到他对BigQuery做了一个简单的测试,在一个具有115000000行数据的实例中分别使用max、mean、avg等进行查询(或计算),BigQuery都会在几秒内返回结果;并且其中一些包含相对比较复杂的查询,比如where、joins或group by。

事实上,查询所返回结果的效率还取决于查询的类型和SQL语句的效率,但无论如何,结果总是以超乎想象的速度返回。

关于数据源支持——悲催!

BigQuery很快,但还有一个问题,如何将TB级的大数据上传到Google云存储上面。当然,不只是Google,这也是每个基于大数据的云存储服务所面临的问题。

更现实的问题是,如果已经有数据在Amazon S3或微软的云存储上,这些数据是否可以供BigQuery调用来进行分析?

答案是,呃,还不行(这点Google做的没微软好,微软Azure上的Hadoop允许Amazon S3上的数据作为数据源)。甚至,如果你有数据在GAE上,你也需要单独的将数据上传到BigQuery,至少目前是这样。

另外一个悲催的地方在于,BigQuery也无法支持Hadoop高级安装(比如Hadoop on Azure或Amazon elastic MapReduce)。

还有就是,BigQuery只支持CSV格式。当我们谈论大数据时,我们总是把Variability(数据多样化)当成最重要的一点来讨论,很显然,BigQuery所支持的数据类型还不够多样,或者说,非常单一。

总结

从篇幅上看,貌似BigQuery的缺点多于优点。但从大数据的处理能力上来看,其TB级数据查询结果秒出的效率还是让人惊叹的。

另外,更重要的一点是,低门槛和低成本。使用类SQL语言进行数据分析,花上几美元就得到Google服务器集群的性能,这些都大大降低了大数据业务的成本。至少你有一种廉价的方案来回答《关于大数据 CEO们需要了解的五个问题》一文中老板们关于大数据成本的担忧。

还有一点是关于数据上传这个老大难问题。Paras Doshi在测试中使用了350GB的CSV数据文件(分成10GB每个)上传到BigQuery,用时几个小时(感叹米国的大水管),这说明从本地集群到Google云进行数据的迁移也不需要多少耐心,我们已经习惯在下班时间上传大数据,不是嘛?

原文链接:http://inbigdata.com/google-bigquery-first-look-and-try/

 

责任编辑:彭凡 来源: In Big Data
相关推荐

2015-08-24 13:56:10

数据分析

2013-09-02 17:42:28

大数据分析FusionInsig华为

2013-05-06 09:14:26

BigQuery大数据分析大数据分析入门

2021-06-15 14:07:42

Google BigQ大数据大数据分析

2014-11-24 16:06:54

2017-03-31 18:00:40

联想大数据

2015-05-26 09:41:45

china-pub

2017-07-22 00:41:27

大数据数据存储

2009-11-30 10:09:02

谷歌Chrome OS

2023-09-11 12:57:00

大数据大数据中台

2018-06-23 07:53:31

大数据分析框架数据

2014-12-08 16:20:39

IBM大数据Cloud Marke

2014-09-09 14:10:01

企业级HadoopSpark

2010-01-04 16:38:07

企业级Silverli

2016-12-01 19:07:46

大数据数据分析

2012-06-07 09:23:43

BigQueryiPad云数据

2014-12-24 10:39:28

Teradata 大数据天睿

2022-04-28 11:38:13

企业级AI平台选型

2018-06-07 08:20:51

自动化测试移动技术云平台

2013-01-18 10:04:33

大数据分析
点赞
收藏

51CTO技术栈公众号