计算机的云计算已经舍我其谁地成为了现今互联网发展的主题,其延伸和发展出的云存储也当仁不让地成为了主流的数据存储和管理方式。云存储系统正逐步成为网站和网络服务方用于存放管理自己数据信息的主要选择。云那头究竟风景如何,让我们来探个究竟。
根据科技网站ExtremeTech的统计,整个互联网的下载流量中,有40%是访问YouTube这样的视频网站产生的;色情网站则占了另一大山头,占据整体流量的30%;剩下的30%由网络硬盘数据下载、访问网址、电子邮件等日常网络服务产生。当电脑前的人们从互联网上获取信息时,大概没有人会去关注信息究竟来自何处。如果大家顺藤摸瓜,便可以发现这些信息中的绝大部分都来源于互联网的云端。
如今提供云存储服务的服务商不仅有亚马逊(旗下Amazon Web Services),微软(旗下Microsoft Azure)和谷歌(旗下Google Drive)这样的网络巨头,还有成百上千的小公司机构。他们中或拥有一整个数据中心,或只有几个机箱的存储设备,规模参差不齐。从这些大大小小的公司身上我们大可窥探整个云储存产业的火爆程度。
云计算因其出众的能力备受青睐,它可以最快的效率为网络中的任何一方提供相关服务。谷歌麾下单单一个为YouTube服务的“云团”就可以存储管理几个PB(1PB=1024TB)的数据。云计算可以有几TB的RAM与几千核的CPU,远非传统计算机可比。而云计算延伸发展出的云存储又究竟有着怎样的魅力,引得谷歌、微软和Dropbox这样的巨头竞相折腰?让我们从数据入手。
数据规模
通常,谷歌、Facebook、亚马逊和微软这样的大公司都很少对外发布自己的详细数据。不过如果用心去多方核查,还是可以得到一些大概的数值:
Facebook:在Facebook的IPO档案中,他们提到自己存储着约为100PB的图片及视频信息。如果考虑了Facebook还要对用户状态这些信息进行网络备份,我们猜测100PB绝对不是他们的存储上限。这里,把这个数值估为300PB应该不为过。
微软:微软近日承认自己的Hotmail服务器内存有超过100PB的信息,而有着1700万用户的SkyDrive也存有10PB的信息。合理预测整个微软的存储规模应该不在Facebook之下,我们也把它的存储上限估为300PB。
Megaupload:和上面两个网络巨头相比Megaupload自然是小巫见大巫,不过它在业内确也有着一席之地,算是25PB吧。
亚马逊:亚马逊旗下有Simple Storage Service这一网络储存服务(简称S3)。亚马逊从来没有向公众透露过S3究竟存有多大规模的数据量,不过今年四月他们却对外宣布S3中存有9050亿份文件。假设平均每份文件的大小为100KB,则S3的存储量在90PB上下;假设平均每份文件为1MB,那么S3的存储规模将达到900PB,它将成为唯一一个储存规模接近1EB的服务商。
Dropbox:去年还只有2500万用户的Dropbox当时对外宣布,自己存储着逾10PB的数据。如今Dropbox的用户数已经上升到了一亿,那么他们的存储规模应该在40PB上下。
储存这些数据究竟多耗地方呢?我们得把这些虚拟数据的大小具体化。一台普通电脑的硬盘平均存储空间为500GB或者1TB,1PB=1024TB,也就是说微软和Facebook最少也得有100000个硬盘用于存储信息。普遍情况下,一个4U机箱内可以塞进48个硬盘。考虑到还要塞一些其他的连接设备,那么一个40U的机柜大概可以存储400个硬盘。
一个40U的机柜占地约为一平方米,也就是说要存储100000个硬盘还是很占地方的。不过对于谷歌、亚马逊、Facebook或是微软这样有着30000多平米大楼的地主公司来说,找个地方放机柜还是不成问题的。事实上, CPU、服务器和网关比硬盘要占地得多。
带宽
关于带宽我们能获得的数据就更加的有限了。有数据显示去年全球内每五分钟都有100万份数据被下载。今年的网络用户比去年多了3倍,那么今年每分钟的下载数量达到了80万的水平。亚马逊的S3作为全球网络存储之首,对外宣布他们的服务器每秒钟要处理的下载请求达到了65万份。
Dropbox:假设Dropbox上每份文件(有图片文件、视频文件和文档)的平均大小是500KB,那么根据Dropbox公布的数据可以推测他们服务器每分钟的流入数据流(用户上传数据)为0.4TB,也就是每秒6.7GB(交换带宽54Gbps)。对于Dropbox的流出数据流(用户从Dropbox服务器上下载文件)我们没有详细信息,不过可以估计带宽大概在10-20Gbps之间。
亚马逊S3:亚马逊的S3主要是用于网站存储数据,所以文件以文字图片、网站样式文件和网页视频为主。这些文件的平均大小会小于Dropbox,假设为100KB。根据亚马逊公布的信息,他们每秒接到650000个数据请求,那么就是每秒61GB(交换带宽488Gbps),真是个庞然大物。
Facebook及微软:两者的数据存储规模都在100PB到300PB,我们估计两者带宽位于Dropbox和亚马逊S3之间,暂且定为200Gbps。
云的成本分析(以Backblaze为例)
我们知道,以上云存储服务商都不允许用户在他们的云端下载自己的软件,也不允许用户在自己的云端存储涉及自己公司硬件数据的信息。不过这个行业内有这么一个例外,它就是Backblaze。特立独行的Backblaze作为云备份服务提供商来说无法在规模上和上述巨头相比,不过也别小看它,它的数据肯定会让你大吃一惊。
Backblaze对外公布,自己管理着32PB的用户数据。这些数据基本上都被储存在容量为3TB容量的硬盘内。在处理数据冗余方面,Backblaze把每15个硬盘捆绑为一个磁盘数组,每两组用RAID 6效验处理。RAID 6可以校验重组硬盘传输的数据错误,同时快捷有效地恢复磁盘错误与读取错误,这对于一个数据中心而言是至关重要的。
Backblaze的服务器以每月3PB的速度扩张,他们每一段时间新增一个135TB的定制4U数据盒(此盒内装置了45个3TB的硬盘)。每月3PB也就是说每月新增大概22个数据盒,相当于每月增加一个48U的机柜。
每个定制数据盒的花费在7384美元,乍看起来每月添置这么多的数据盒真是一笔不小的运营支出,但这笔开销可以算是Backblaze财务报表内最小的一块。电费、房租和带宽开销才是主要的资金负担,这些费用保持着与时俱进的态度涨个不停。
Backblaze公司的电费是0.2美元每千瓦时,每个数据盒的每月电费就要100美元。由此可见一个数据中心要负担的电费是相当高昂的,所以多数网络公司都选址建于电费相对低廉的地区,比如美国的俄勒冈州(Oregon)。Backblaze并没有属于自己的数据中心,他们租用第三方的数据中心存放自己的服务器,也就是说他们每个月还要负担房租开销(每个机柜平摊下来月房租为1000美金)。目前Backclaze手下约有300个数据盒,40个机柜,也就是说每月的电费为30000美元,房租为40000美元。
然后就是带宽的费用了。Backblaze一直采用12Gbps的境内带宽(每秒传输速度约为1.5GB)和500Mpbs的境外带宽(每秒传输速度约为62.5MB)。之所以两条线路速度不同是因为Backblaze作为一家提供云备份服务的公司,客户主要分布在美国国内。但500Mbps的带宽是非常不流畅的,我们可以想象境外用户在使用Backblaze时的网络很不理想。
目前Backblaze每天要接受约一亿份来自用户的文件,折合每年365亿份。数字显示了一个很惊人的发展速度,因为这个数字在2011年还仅仅只有6亿。我们不知道一台计算机具体能够储存多少文件,但按照每台5000个文件估算(不包括Windows系统文件及program files文件夹文件),保守估计至少有120000台计算机在Backclaze上做了文件备份。
在Backblaze的初创期,他们每月每Mbps的带宽费用是30美元,不过现在这个开销已经下降到每月每Mbps 2美元了。估算公司每月负担的带宽费用在25000美元上下。如果Backblaze选择更为廉价的带宽服务商,并且建立属于自己的数据中心而不是租用别人的地皮,公司的费用还有很大的下行空间。综上所述,合理地考虑房租、带宽开销和用电费用后,运营一个40PB规模的“云团”(不计员工工资)每月要耗费10万美元。
云的收益分析
以微软、谷歌和Dropbox为代表的大批公司都争先恐后地入驻云储存领域。为占领市场份额,各公司之间所做的激烈竞争也是路人皆知。各方英雄鹿逐中原究竟为何原因,看了以下数字你就知道了。
以Backblaze为例,Backblaze提供的无限空间网络备份服务每月收费5美元。上文推导得出该公司每月负担的费用在10万美元上下(不计员工工资),也就是说为了达到收益——支出平衡它需要20000个用户。Backblaze究竟有多少用户我们不得而知,不过公司的CEO对外宣称公司是很赚钱的。(Backblaze只有13个员工,顺便说一下,他们没有被拖欠工资)
Dropbox公司可以做一个更好的例子。Dropbox提供的50GB网络存储服务收费为每年100美元。与Backblaze不同,Dropbox没有属于自己的信息存储设备,他们连设备都是租的。Dropbox把自己的数据存储在亚马逊的S3服务器中,储存规模达到了40PB。
对于存储规模在5PB以上的客户,亚马逊的收费标准为每月每GB0.055美元。假设购买了Dropbox50GB容量存储服务的普通客户平均在云端存有25GB文件,那么Dropbox每月要为每一个客户支付给亚马逊1.38美元,而他们每月可以从客户手上拿到近10美元。这样的利润是可观的,但事实上像微软Skydrive、谷歌Drive和亚马逊S3这样自己拥有数据中心的云存储服务商能到手的收入比这更多。
话说回来以上利润估值只是一个理想值,它建立在用户为付费用户的前提之上。然而在现实中有很多人只选择了免费的云储存服务。Dropbox有一亿客户,其中的绝大部分都是非付费用户,付费用户的数字相当有限。所以他们到手的利润也没有理想中那么丰厚。
云时代
对于各大企业来说,入驻云储存领域更大的动机还是出于发展战略的考虑。谷歌和微软两个老对手已经把云计算作为了他们的下一个战场。微软可能会将云计算服务于Windows 8系统,届时用户只需登录自己的网络账户就可以把计算机上所有的文件和设置同步到云端。
此时的“个人电脑”将成为一个全新的概念,它将不再依托于我们面前的电脑设备,用户可以随意更换电脑,甚至只要用任何一台可以上网的机器(比如PS 3)连接进入自己的账户,就可以使用属于自己的“电脑”。谷歌也会把自己的Chrome系统打造为“云上系统”,完全地基于网络。不仅是Chrome,新的安卓系统也会朝着云计算的方向靠近。在不远的将来谷歌会把自己旗下的一系列产品通过计算机云整合起来,建立一个全新的“云时代”。
最终,这些网络巨头将把移动设备和个人电脑通过计算机云融为一体。用户如果习惯使用谷歌的办公和数据存储系统,他可以使用Chrome系统加上安卓手机,因为这两者已经通过谷歌的计算机云合为一体。用户如果钟情于微软的办公及数据储存系统,那么Windows 8加Windows Phone 7就是他最好的选择。
如今的苹果也已经推出了iCloud服务,用户使用任何一台iPad、iPhone 4S或是Mac Pro和Mac Air登陆自己的iCloud账户都可以把相当一部分的信息上传到云端,云储存帮助苹果打通了设备之间的隔阂。等到微软、谷歌和苹果都把计算机云整合到自己的操作系统内部,建立起属于自己的网络军团时,不知Dropbox这样的孤兵散将又该何去何从。