小编自接触存储以来,一直没有对存储进行分类,感觉它的知识界限并不是那么的明显,如果单单把它归为一类的话确实有点牵强。
它有自己的知识主体也有其他内容的涵盖,所以我认为存储的内容比较广泛和零散,概念比较多,下面我就分享一下学习存储的心得。
一、首先要了解一些基本的概念
1、什么是数据及数据与信息的区别:数据可以理解为对所有事物的数字表示,信息是经过加工处理的数据,它是在数据层面上经过
提炼得出来的有价值的数据。其实这两个概念都比较简单,但是非常重要。
2、了解了数据及信息的定义后,大家会想这么多的数据哪些是有用的呢?数据是否有价值是谁来决定的呢?带着这些问题,我们看一下
三个名词,分别是:RPO、RTO、和 COT,如果仅仅对这3个名词进行解释的话效果并不好,会让你联想为死记硬背的概念。所以,我就用通俗易懂的话语来说一下三个名词的作用:RPO的作用是统计发生灾难时我到底丢失了多少数据;RTO的作用是我想要恢复丢失
的数据需要多长时间;COT的作用是灾难期间我公司每小时损失的数据成本是多少。有兴趣的话,大家可以去百度一下这三个名词缩写的具体含义。
3、第三个概念是现在比较流行的即ICT,ICT=IT+CT 就是信息技术与通信技术的融合。这个也是华为未来的发展方向。
4、***说一下ICT的基础架构,其实可以理解为存储的架构,我们可以简单的理解为:主机+网络+存储,随着学习的深入以后会慢慢的丰富这个架构。
基本定义说完以后接下来说一下现在存储里面比较流行的三种解决方案,虽然很多人都听过但是真正能理解的人却不算太多。
二、DAS、NAS、SAN
又是三个英文单词的缩写,如果想真正理解其含义及作用,必须进行单独的解析,下面我分别说一下三个名词。
1、DAS:直连式存储,可以理解为直接相连的存储方案。也是最早的存储设备,其他的不用多想知道它直连的就可以了。DAS一般分为两种类型:内部DAS和外部DAS,两者的区别是依据于连接位置区分的。处理器和存储设备放在一起的就是内部DAS,例如服务器;处理器和存储设备分离的就是外部DAS。DAS有个致命的缺陷就是连接距离***不能超过25m,这个缺陷显示了DAS的发展。
2、NAS:网络附加存储,可以简单的理解为通过网络进行共享的技术,说白了就是共享服务,NAS常用的共享协议是NFS和CIFS,前者是类UNIX系统使用的协议,后者是Windows用的协议。NAS一般可以分为盘控一体和盘分离,盘指的是存储阵列,控指的是控制器,一般的NAS设备最少是双控(A控+B控)。
3、SAN:存储区域网络,它是DAS的升级版本,随着数据和设备的增加,DAS已经不能满足工作和生活的需要,所以出现了SAN,它弥补了DAS的不足。这三个技术的出现顺序是DAS早于SAN,SAN早于NAS,是不是有点意外。
第三部分介绍这三个技术中涉及和使用到的协议,也是大家比较熟悉的名词。
三、存储常用的协议
1、ATA和SATA:其实这个定义可以不用记住,因为是比较老的东西,现在用的也不多,大家了解一下就可以了。
ATA是一种很早就出现的接口类型,后者是前者的改进即串行的ATA。
2、SCSI:这个出现的也是比较早,***由IBM公司提出来,前期用于小型机的接口,全称叫“小型计算机系统接口”S(small)C(computer)S(system)I(interface)。后来又衍生出ISCSI。
3、SAS:就是串行的SCSI。
4、FC:光纤通道协议,它是光纤传输使用的协议。
接下来说一下市场上流行的几种硬盘,他们各自的特点及区别。
四、常用的硬盘
1、SATA盘:比较早的硬盘,现在基本不用了,特点是存储容量大,价格低;缺点是读取速度慢,不适合频繁的操作。
2、SAS盘:串行SCSI盘,现在比较流行的盘,特点是读取速度快,价格适中,性价比高。
3、SSD盘:固态硬盘,特点是读取速度极快,价格昂贵,生命周期短暂,性价比底。
4、NL-SAS:近线SAS,盘体采用的SATA,接口采用SAS,结合了两者的优点于一身,主要用在容量盘中。
下面介绍RAID技术。
五、传统RAID技术
RAID的定义:独立磁盘冗余阵列,它的作用主要是容灾和备份,容灾可以理解为容许灾难发生,备份就不用多说了,也可以理解为数据恢复技术还有就是保障数据的写入和读取的效率。
RAID根据业务不同的分为不同的等级:0、1、2、3、4、5、6、10、50等,其中2和4不常用,但是确实存在,剩下的
是比较常用的RAID级别,下面简单的说一下几个RAID的区别。
1、RAID0: 把数据同时写入2块硬盘,读取效率提升50%,没有备份盘,坏了就完了,不能恢复和重构数据,作用
仅仅是提高性能。一般单独做RAID0的很少。
2、RAID1:把一样的数据分别拷贝到两个盘上,这两个盘的数据完全一样,缺点是硬盘的利用率只有50%,优点是当一个盘坏掉,另一个盘可以正常使用。
3、RAID3:最少需要4个硬盘,其中一个硬盘作为校验盘,具有数据校验的功能,所有校验的信息都放到校验盘中。当某个数据
丢失后,通过其他数据和校验盘进行异或运算推出丢失的数据,优点:数据丢失后可以恢复,缺点:需要额外的校验盘,还有一点就是存在“写惩罚”。
4、RAID5:RAID3的升级版,去掉了校验盘,所有校验任务都平均分配到各个盘中,可以理解为分布式存储,优点是数据恢复速度快,不需要校验盘;缺点是:每个盘都参与校验,硬盘使用频率高,损坏的几率也高。
5、RAID6:继续升级,有2块校验盘,有2种校验模式,例如:P+Q校验 和 DP校验,优点是其他RAID不能比拟的,它允许同时损坏2块硬盘,是不是很给力。
6、***这个其实就2个组合:RAID10:先做RAID1,再做RAID0,这种模式性能和效率都很高比较流行。
RAID50:先做RAID5,再做RAID0
下面说一下两个概念。
六、其他知识
1、大数据
SNIA(全球网络存储工业协会)对大数据下的定义是,在***大的计算平台上都无法对全部数据进行有效的处理的数据集合。
提到数据不得不对其进行分类,我们可以简单的分为2类:结构化数据和非结构化数据,当然也有人分为三类即增加了半结构化数据,
在这里我们简单的分为2类即可。结构化数据是指用二维表可以逻辑的表示出来的数据,例如,Excel、数据库等。非结构化数据是不能用二维表逻辑的表示出来,例如,图片、视频、文档等。
2、云计算
云就是互联网,就是互联网计算。它有三种部署模式和三种商业模式,部署模式有:私有云、公有云和混合云,这里不详细的介绍。商业模式有:IAAS(基础架构就是一种服务)、PAAS(平台也算是一种服务)、SAAS(软件也是一种服务)综上所述云计算就是卖服务的,就像电力集团卖电一样。
七、RAID2.0+
上面说的RAID是传统RAID技术,随着技术的发展,主流厂商纷纷提出来新的RAID技术,RAID2.0+是华为推出的,它的核心思想是把数据平均分配到每个磁盘上,当读取数据的时候所有磁盘都参与进来,这样读取的速率就会大大的增加。
首先将所有磁盘都划分为单个的chunk,多个chunk组成一个chunk组(ckg)。从ckg中再细分成extent,根据磁盘类型的不同,extent的大小也不一样。SAS盘和SSD盘中extent的大小为64M,NL-SAS盘extent的大小为256M,所有的extent组成一个卷,从卷中再映射出Lun,呈献给用户的就是一个个的Lun,一个Lun就是一个逻辑卷。其实在extent中还可以继续划分为更小的单位即grain,它是thin Lun的组成单位。