从大数据元年到“互联网+”,可以看到在每一天每一分钟里,数据都在被大量的创造出来。根据2014年的统计数据,一分钟EMAIL用户发送204,000,000封电子邮件、Google收到4,000,000搜索请求、FACEBOOK用户分享2,460,000条内容……类似的例子可以列出很多,用几个简单的词可以概括海量数据的特点,就是超大规模、快速、多样。
应对海量数据存储需求,目前国内外存储厂商大多采用分布式存储技术,技术比较过硬同时业界口碑比较好的有EMC的Isilon、浪潮的AS13000和华为的OceanStor 9000。今天,小编就来为大家扒一扒,分布式存储技术是如何发展起来的?作为广电总局、华强文化等单位都青睐的海量存储产品AS13000,在分布式存储技术上又有何优胜之处,在非线编、影像处理等应用上做了哪些优化?
架构之争,集中式还是分布式,业务需求是道“分水岭”
所谓集中式存储,是基于网络的存储系统,主要包括DAS存储(直接附加存储)、NAS(网络附加存储,提供文件级的数据访问和共享服务)、SAN(存储区域网络,针对海量的面向数据块的数据传输)这3种存储组网形式,其中SAN和NAS在实际应用中比较常用。
所谓分布式存储,就是将数据分散存储在多台独立的设备上。
现在问题来了,既然集中存储已经能够满足一定规模的企业数据访问和存储需求,为什么还会出现分布式存储呢?
这个问题也不是一个“既生瑜,何生亮”的矛盾话题,应该说业务是采用不同架构的“分水岭”,业务规模不同,适用的存储模式也不同。
传统的网络存储系统采用集中的存储存放所有数据,比较适合业务应用相对固定、对数据一致性要求高、存储空间一般在几十TB~百TB容量以下且可预测范围内增长不大的业务场景。
而对于业务超大规模部署(如PB级)、数据量几何级增长的场景,集中存储成为系统性能的瓶颈,也是可靠性和安全性的“瓶颈”,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储设备分担数据并发访问负荷,利用一台控制设备进行统一调度和管理,这样一来不但提高了系统的可靠性、可用性和存取效率,还便于管理。
简单来看,在“互联网+”趋势下,云计算、大数据、移动化、社交网络为代表的第三平台兴起,业务对存储架构的需求更加灵活,对扩展性、存储性能有了更高要求,数据类型也更加丰富。这都给了分布式存储更多的发展空间。
同时,各个区域建立集中式还是分布式存储基础设施,很多时候和一个城市的空间布局有关。就拿北京一些政府部门来说吧,各个区域受限于地理位置、网络条件、机房承重、空调设计等问题,建立集中式的存储基础设施,就不如在各个区先建立分布式存储系统,再汇总到总中心。
大有不同,分布式存储不仅要看“颜值”更要看“细节”
前文提到业界多家厂商都在分布式存储上推出了自家的产品,这些产品单看“颜值”,功能上有很多共性,比如一般都能支持SAN、NAS、Object任一种数据类型,容量、性能线性提升,支持统一管理,降低TCO等等。但细看之下还是各有独特之处的,下面我们就拿浪潮分布式存储AS13000做个示例,看看这款产品有何特点吧。
浪潮分布式存储系统AS13000
NO.1可跨节点存放元数据或副本,提升可靠性
AS13000可将多份文件/对象/块数据分别或者一份文件/对象/块数据打散存储在多台独立的设备上,通过集群不同节点提供文件/对象/块数据级别的结构化或非结构化数据的存放与访问。
分布式存储是将文件/对象/块数据并行分布在多个节点上的存储系统,分布式存储能将SAN 连结到IP或FC网络,除块数据通过FC网络访问外,使IP 网络用户能通过NAS存储协议直接访问SAN 中的存储空间。
值得一提的是,在容灾能力方面,浪潮分布式存储可以跨机架存放副本,提升系统可靠性。这点在业内还是比较领先的,很多其他品牌的分布式存储只能在本机架内存放副本,一旦出现整机架故障,数据就可能损坏或丢失。
副本方式数据冗余,可跨节点部署副本
相比于传统的RAID技术,节点间的数据冗余具有以下优势:
l 更强的容灾能力:相对于RAID,副本机制具备更强的容灾能力,能够容忍任意形式的单点故障,包括断电、断网、磁盘损坏、系统崩溃等
l 更快的数据恢复速度:当单一节点出现异常时,系统的剩余节点会重新进行数据分布和复制以恢复容灾能力。该过程在所有存储节点间并行进行,数据恢复速度是RAID的10以上。
l 更低的成本:不需要通过阵列的方式实现数据的冗余,而使用存储服务器,具有更低的成本和更高的性价比
NO.2纠删码和集群间的数据重删,节约空间
分布式存储多用来存储大规模的数据,并且为了保障数据的高可用采用了多副本技术,为保障数据万无一失,副本当然是越多越好,就像AS13000能支持2-8个副本。然而可以想象,当数据规模是PB级以上时,每个副本也将消耗大量的存储空间,由此所带来的容量购置成本和系统运行成本的增长,实在让数据中心有些吃不消。
在副本技术外,浪潮分布式存储还支持纠删码,可以通过纠删码保障数据高可用,从而减少副本的需求量,给企业节约了成本。
这还不算,浪潮分布式存储还支持集群存储层级的数据重删,通过制定灵活的重删规则,显著提高存储空间的利用效率,进一步降低容量成本开支。
浪潮分布式存储可根据文件类型、大小、创建时间设定相关的重删规则
NO.3改进传输协议,获得更好的性能
对于非线编、视频制作等应用场景,经常是很多人一起参与同一个视频的加工,带宽成了影响工作效率的一个关键点。
传统NFS协议中,一个客户端只能对应一台服务器(但一个服务器可以给多个客户端提供服务),也就是一个NAS机头提供带宽服务,造成了客户端的带宽瓶颈。
浪潮对此进行了优化,在NFS协议基础上叠加了多路径技术,可以在一个客户端上插入多个网卡,根据内部负载调度算法,实现一个客户端使用多个NFS服务端的聚合带宽,给非线编和视频制作提供了强大的带宽支持。
此外,AS13000支持Windows和Linux等多种客户端,方便在不同的业务场景下部署。
同时,在IOPS优化方面,浪潮分布式存储技术有两种加速方式。其一是在全SATA盘的情况下,采用写数据直接落盘技术,可提升数据写入速度;其二是在SSD+HDD混合的情况下,对读写进行优化设计,数据先写入SSD,进行数据整合排列后,再把相对顺序且规整的数据写入HDD,在数据读取时,数据仍然是顺序的,减少了磁盘的寻址时间。这样一来,数据写和读过程中都提升磁头的工作效率,延迟也可大幅降低。
AS13000,技术上有更多精彩
刚才跟大家分享了浪潮分布式技术的几个小细节,比如跨节点副本存放、重删、纠删码、改进的协议等等。虽然说了很多,感到还是意犹未尽,像集群虚拟化、统一管理等和软件定义存储相关的技术还没来得及展开,不如放到专门的一篇软件定义存储技术稿里,下次再说个痛快吧。