AWS用户大会最大的新闻就是:数据仓库服务Redshift的发布,这是一个基于云的数据仓库服务。与此同时也带来了一个新的问题:云计算是数据仓库最好解决方案吗?
我们不否认,AWS一直在努力的实现数据的高效管理,当然云计算可以帮助企业实现一个低成本的基础设施搭建,从而更好的对网站进行管理。但是公有云似乎拖住了Redshift前进的步伐,因为很多人认为把自己敏感的财务数据或者是个人身份资料放到云端是很不安全的。不仅如此,如何把数据迁移到云端这也是一个很大的难题。
这也是实现云端的数据仓库的最大挑战:如何把数据迁移到AWS的云端。这些TB级甚至是PB级的数据在迁移到AWS云端的过程中,不仅仅只是安全性问题,甚至有可能耗尽带宽。不过AWS连接着第三方的供应商网站就像Equinix,就可以直接连接到云端。AWS的官员表示通过“shipping service”传输物理磁盘上的数据是一种很常见的方式,这也有利于用户在AWS上获取和发送数据。
当然,数据迁移到云端和那些已经在AWS云端的数据是不一样的,这种情况多数是初创公司,他们一开始就把一切部署到AWS这个平台之上。在本次大会的第二天,AWS就释放了一个千兆链接的数据通道来帮助用户实现数据的迁移工作。但是许多企业已经拥有了自己的数据仓库,很难考虑这项服务,当然也不排除他们也会在Redshift上测试新的数据仓库服务。Wikibon项目的大数据研究员Jeff Kelly暗示,如果公司拥有敏感的信息如财务数据或个人身份资料等等的话,那么可能还需要一段时间来做决定。
优势在于成本,让企业专注于核心竞争力
Redshift最大的优势在于成本低廉。亚马逊对Redshift在Amazon.com上的零售业务上已经进行了测试,结果表明每年的成本仅仅是32000美元,对比老牌玩家“百万美元”级别的数据仓库,Redshift无疑是一个很好的选择。传统的数据仓库的应用软件的花费在19000美元到25000美元之间(G/每年),而在Redshift上只需要1000美元(G/每年)。
AWS首席数据科学家Matt Wood认为,对于大公司来说,这是一个潜在性的成本节约,更重要的是Redshift消除了构建数据仓库的“壁垒”,让中小型企业构建数据仓库变成了可能。与此同时他表示,Redshift和其他的AWS服务可以让企业更专注于自己的核心业务,而不用耗费太多的精力来管理基础设施。
Matt Wood:“Redshift旨在消除那些大规模的基础设施对企业的拖累,进而可以让企业专注于自己核心的竞争力。”#p#
数据仓库服务水太深,而且Redshift强敌环伺
但是有一个问题,如果AWS认为云计算的解决方式非常适用于数据仓库,那么,为什么没有其他的供应商这样做呢?Kognitio,一个欧洲的数据管理和商业智能平台,早期已经有一些传闻——将推出基于云的数据仓库,而且试图进军美国的企业市场,但是从两年前开始到现在,并没有取得任何的成果。像Oracle、微软、IBM和其他数据仓库中的“老牌玩家”同样可以启用基于云的数据仓库服务,但是为什么他们却一直没有展示自己这方面的能力呢?
Kelly表示,不仅仅如此,还有不少“新玩家”在涉足这个领域。EMC和VMware最近宣布他们的——Pivotal Initiative,这是一个结合了大数据和基于云计算的技术;还有Google的BigQuery服务,对此也是“虎视眈眈”。
Redshift可以说是AWS一个自然的进化。当然,亚马逊一直在努力加强自身的产品和服务进而攫取更大的企业市场份额,这是显而易见的事情,从最近推出的新服务像Redshift和Glacier,还有AWS的高管在本次大会上阐述了很多关于企业市场的情况,都展示出亚马逊的“勃勃雄心”。不过Redshift目前仍处于初期阶段,目前也只有一个“阉割”的beta版,推出全功能的Redshift可能还需要很长一段时间。
Redshift是个“先行者”
其实目前的大多数企业还没有准备好使用云端的数据仓库。不过数据仓库研究所的数据管理研究主任Philip Russom认为,Redshift应该是AWS的一个探索,它属于这个市场上的先行者。“如果你作为一个供应商,必须有领先于市场的需求才能赶得上市场的发展。”他同时补充道,“亚马逊在云计算领域有着良好的口碑,所以如果说企业想迁移数据仓库到云端,那么亚马逊绝对是最自然的一个选择。”
当然也存在着一些问题——成本的潜在利益,可管理性,加上用户很担心安全和数据传输——这可能意味着Redshift将会走亚马逊其他面向企业服务的老路,至少Wikibon项目的大数据研究员Jeff Kelly是这么认为的。很多前瞻性的企业已经拥抱了亚马逊的云服务,他们可能会更迅速的接受像数据仓库这样的云计算服务。然而对于大企业来说,他们在选择使用公共云的服务上,一直谨小慎微。当然我们也不排除,他们正在观察公有云服务的测试,看看公有云服务是否符合自身的发展。
Kelly认为:“Redshift肯定能够带来一些利益,数据仓库发展的一个很重要的问题(当然上文也多次提及),就是一些关键性信息或者说专有信息的所有者不愿意把数据放到云端。但是有一些组织的数据是孤立的,它就会产生各种不同的需求。也有一些公司,根本没有自己的基础设施来管理数据仓库,那么Redshift就是一个极具吸引力的选择。显然,如果你已经在云端做相关的数据管理,尤其是正在使用亚马逊的云,这可能就是一个很好的机会来尝试这一新型的云服务。