还记得云存储优点的吗?其中有一点是可以帮助企业节约成本,企业将大部分数据转移到云存储上,让云存储服务提供商来为他们解决数据存储的问题。一方面云存储可以帮助我们消除使用硬件存储数据的需要。用户不必再购买、维护和升级电脑系统、硬件驱动和CD,就可以进行数据备份。再一方面用户可以按需购买存储空间,用多少买多少,使用灵活。
有的用户会发现真正使用的时候却事与愿违,企业收到账单后会惊叹,这是什么情况?怎么会这么多钱?那是因为云存储与传统内部存储间的成本差异在于,前者的成本要素更为分散。云存储的成本要素主要包括:
一级数据存储成本,包括对象或者块存储
AWS S3等对象存储服务每月每TB的标准层使用成本仅为23美元,连续访问层则为每TB 12.5美元。众多现代应用已经能够发挥对象存储的既有优势。云服务供应商提供自己的文件或者块存储选项,例如AWS EBS每月每TB块存储资源成本为100美元,且可按小时计费。亦有不少第三方方案可作为后端用于将传统文件或块存储同对象存储系统对接。
即使是每年每TB 1200美元的AWS EBS,其使用成本也仅为内部解决方案的二分之一到三分之一,而且后者还需要更高昂的前期投入。正因为如此,企业纷纷选择云存储以降低运营成本及前期投入,且享受由此带来的按使用量计费收益。
数据传输成本
公有云供应商通常会向不同云服务区或者云外部间的数据传输收费。例如在不同Amazon服务区间移动或复制1TB的AWS S3数据会带来20美元成本,而将其移动至互联网的成本则为90美元。事实上,GET、PUT、POST、LIST以及DELETE等请求都会产生对应的数据访问成本。
大魔王在此——副本、快照、备份或数据归档的成本
成本破表由此发生,这与您存储在云内的具体数据量无关,而且存储单一副本也用不了多少投入。最可怕的是保存多份数据副本,包括备份、归档或者其它需求,这会在不经意间带来可怕的支出。
在云环境中,每套副本都会产生与原始对象相同的成本。虽然云供应商可能会在后台进行重复数据删除或压缩,但这种情况并不常见。对企业而言,这意味着快照、备份与归档数据都会产生额外费用。比如,AWS EBS的每月存储快照成本为每GB 0.05美元。虽然快照会进行压缩并仅存储增量数据,但由于不具备重复数据删除机制,100TB数据集的快照每年需要花费60000美元!
重复数据删除对于云存储的重要意义
云应用在设计上具备分布式特性,且标准部署在非关系型大规模可扩展数据库内。在非关系型数据库中,即使不进行复制,大多数数据仍然属于冗余信息。以MongoDB或者Cassandra为例,其复制因子为3,意味着为了确保数据完整性,其会在分布式集群中保留3份副本。
备份或者次级副本通常由快照进行创建及维护。数据库体系结构决定当我们保存快照时,实际上同时也制作出了三份副本。
不仅是重复数据删除——还有重复语义删除
大多数重复数据删除技术作用于存储层,即对数据块进行重复删除。这种作法对于SAN或NAS等集中式存储非常有效,但却不太适用于MongoDB等分布式数据库的数据层。在这一领域,重复删除技术需要解决两大基本问题:
需要立足数据层起效,而非存储层。为了在分布式集群中实现重复数据删除,软件需要理解并解释底层数据结构。
需要抢在冗余数据被写入数据库前将其清除。一旦数据写入,则会在集群内进行复制,这意味着必须利用实时重复数据删除方可解决。
使用云存储有困扰的朋友,可以试试删除一些重复的数据备份,节省空间又节约资金,删的时候可要注意别错删了重要文件。