互联网分布式存储入门-互联网分布式架构

在Google、Amazon、腾讯等大型互联网公司里，因为业务广泛，有大量的用户数据需要保存，因此分布式存储系统往往成为该类公司的一个基础设施。分布式存储涉及到单机存储引擎、分布式系统协议等众多领域，该篇文章作为一个入门，带领大家认识分布式存储系统的基本概念。

分布式存储应该满足的基本条件

以微信朋友圈的图片为例，随着微信运营时间的增长，需要保存的朋友圈图片必然是越来越多的，因此保存这些图片的分布式存储系统必须可扩展。

对于大型互联网公司来讲，要保存的数据量非常大，因此成本是考量一个存储系统是否可上线运营非常重要的一个指标。

无论是对整个分布式存储集群还是针对单机的存储引擎，都需要高性能的保证，否则低成本就无从谈起。

分布式存储系统作为一个基础设施，必须具备足够的易用性，才能更好地服务于各个业务。比如Amazon的S3，接口形式统一，接入简单。

分布式存储系统面临的主要技术挑战

整个存储系统是一个集群，如何保证数据均匀分布到多台服务器？假设某一数据被拆分存储到多台服务器后，又该如何实现跨服务器读写？

出于数据可靠性的考虑，同一份数据必然是保存多份的，如何保证这多份数据的一致性？

对于一个集群而言，机器出现故障是必然的。如何在出现故障时做到及时发现，并且自动把故障机器上的数据和服务迁移到非故障机器？

任何一个集群系统都存在负载均衡的策略问题，分布式存储系统自然不例外。

如果要求该分布式存储系统支持事务和并发控制功能，该如何实现？

易用性前面有提，不再赘述。

怎样根据数据的特点设计、选用合理的压缩/解压缩算法以平衡压缩带来的空间节省和消耗的CPU计算资源。

分布式存储系统存储的数据分类

互联网业务涉及的数据一般可以分为三大类：

1.非结构化数据

典型的如图片、音视频文件等。

2.结构化数据

传统的用关系型数据库保存的二维表结构数据。

3.半结构化数据

介于结构化数据和非结构化数据之间，典型的比如HTML文档。

分布式存储系统分类

基于上述数据类型存储的实际需要，分布式存储系统逐渐演化为以下四种类型：

1.分布式文件系统

一般用于存储非结构化数据。比如HDFS、TFS（Taobao File System）、FastDFS等。

2.分布式键值系统

可以通俗地理解为hash表，如淘宝的Tair、Redis、memcached等，一般用于存储半结构化数据。

3.分布式表格系统

也用于存储非结构化数据，相比分布式键值系统，不单单提供基于主键的读写，还支持对某个主键范围进行扫描，典型的比如Google的Big Table。

4.分布式数据库

由单机数据库发展而来，用于存储结构化数据。典型的如MySQL Sharding集群。