容灾备份实际上是两个概念,容灾是为了在遭遇灾害时能保证信息系统能正常运行,帮助企业实现业务连续性的目标,备份是为了应对灾难来临时造成的数据丢失问题。在容灾备份一体化产品出现之前,容灾系统与备份系统是独立的。容灾备份产品的最终目标是帮助企业应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。
从其对系统的保护程度来分,可以将容灾系统分为:数据容灾和应用容灾
数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。
所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个可用复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。采用的主要技术是数据备份和数据复制技术。 数据容灾技术,又称为异地数据复制技术,按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式(各厂商在技术用语上可能有所不同),另外,也有如“半同步”这样的方式。半同步传输方式基本与同步传输方式相同,只是在Read占I/O比重比较大时,相对同步传输方式,可以略微提高I/O的速度。而根据容灾的距离,数据容灾又可以分成远程数据容灾和近程数据容灾方式。下面,我们将主要按同步传输方式和异步传输方式对数据容灾展开讨论,其中也会涉及到远程容灾和近程容灾的概念,并作相应的分析。
所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行。数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间的良好协调。主要的技术包括负载均衡、集群技术。数据容灾是应用容灾的基础,应用容灾是数据容灾的目标。 在选择容灾系统的构造时,还要建立多层次的广域网络故障切换机制。本地的高可用系统指在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。 在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。
集群系统是在冗余的通常可用性系统基础之上,运行高可靠性软件而构成。高可靠性软件用于自动检测系统的运行状态,在一台服务器出现故障的情况下,自动地把设定的服务转到另一台服务器上。当运行服务器提供的服务不可用时,备份服务器自动接替运行服务器的工作而不用重新启动系统,而当运行服务器恢复正常后,按照使用者的设定以自动或手动方式将服务切换到运行服务上运行。备份服务器除了在运行服务器出现故障时接替其服务,还可以执行其他应用程序。因此,一台性能配备充分的主机可同时作为某一服务的运行服务器和另一服务的备份服务器使用,即两台服务器互为备份。一台主机可以运行多个服务,也可作为多个服务的备份服务器。
数据容灾系统,对于IT而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。可以说,容灾系统是数据存储备份的最高层次。
备份分类
同城备份,是指将生产中心的数据备份在本地的容灾备份机房中,它的特点是速度相对较快。由于是在本地,因此建议同时做接管。但是它的缺点是一旦发生大灾大难,将无法保证本地容灾备份机房中的数据和系统仍可用。
异地备份,通过互联网TCP/IP协议,将生产中心的数据备份到异地。备份时要注意“一个三”和“三个不原则”,必须备份到300公里以外,并且不能在同一地震带,不能在同地电网,不能在同一江河流域。这样即使发生大灾大难,也可以在异地进行数据回退。当然,异地备份,如果想做接管需要专线连接,一般需要在同一网段内才能实现业务的接管。
当然,最好是能够建立起“两地三中心”的模式,既做同城备份也做异地备份,这样数据的安全性会高得多 [2] 。
数据容灾备份的等级
容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。根据容灾系统对灾难的抵抗程度,可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统,该系统是对本地系统关键应用数据实时复制。当出现灾难时,可由异地系统迅速接替本地系统而保证业务的连续性。应用容灾比数据容灾层次更高,即在异地建立一套完整的、与本地数据系统相当的备份应用系统(可以同本地应用系统互为备份,也可与本地应用系统共同工作)。在灾难出现后,远程应用系统迅速接管或承担本地应用系统的业务运行。设计一个容灾备份系统,需要考虑多方面的因素,如备份/恢复数据量大小、应用数据中心和备援数据中心之间的距离和数据传输方式、灾难发生时所要求的恢复速度、备援中心的管理及投入资金等。根据这些因素和不同的应用场合,通常可将容灾备份分为四个等级。
第0级:没有备援中心
这一级容灾备份,实际上没有灾难恢复能力,它只在本地进行数据备份,并且被备份的数据只在本地保存,没有送往异地。
第1级:本地磁带备份,异地保存
在本地将关键数据备份,然后送到异地保存。灾难发生后,按预定数据恢复程序恢复系统和数据。这种方案成本低、易于配置。但当数据量增大时,存在存储介质难管理的问题,并且当灾难发生时存在大量数据难以及时恢复的问题。为了解决此问题,灾难发生时,先恢复关键数据,后恢复非关键数据。
第2级:热备份站点备份
在异地建立一个热备份点,通过网络进行数据备份。也就是通过网络以同步或异步方式,把主站点的数据备份到备份站点,备份站点一般只备份数据,不承担业务。当出现灾难时,备份站点接替主站点的业务,从而维护业务运行的连续性。
第3级:活动备援中心
在相隔较远的地方分别建立两个数据中心,它们都处于工作状态,并进行相互数据备份。当某个数据中心发生灾难时,另一个数据中心接替其工作任务。这种级别的备份根据实际要求和投入资金的多少,又可分为两种:①两个数据中心之间只限于关键数据的相互备份;②两个数据中心之间互为镜像,即零数据丢失等。零数据丢失是目前要求最高的一种容灾备份方式,它要求不管什么灾难发生,系统都能保证数据的安全。所以,它需要配置复杂的管理软件和专用的硬件设备,需要投资相对而言是最大的,但恢复速度也是最快的。
容灾备份的关键技术
在建立容灾备份系统时会涉及到多种技术,如:SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。这里重点介绍远程镜像、快照和互连技术。
1. 远程镜像技术
远程镜像技术是在主数据中心和备援中心之间的数据备份时用到。镜像是在两个或多个磁盘或磁盘子系统上产生同一个数据的镜像视图的信息存储过程,一个叫主镜像系统,另一个叫从镜像系统。按主从镜像存储系统所处的位置可分为本地镜像和远程镜像。远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。远程镜像按请求镜像的主机是否需要远程镜像站点的确认信息,又可分为同步远程镜像和异步远程镜像。 同步远程镜像(同步复制技术)是指通过远程镜像软件,将本地数据以完全同步的方式复制到异地,每一本地的I/O事务均需等待远程复制的完成确认信息,方予以释放。同步镜像使拷贝总能与本地机要求复制的内容相匹配。当主站点出现故障时,用户的应用程序切换到备份的替代站点后,被镜像的远程副本可以保证业务继续执行而没有数据的丢失。但它存在往返传播造成延时较长的缺点,只限于在相对较近的距离上应用。 异步远程镜像(异步复制技术)保证在更新远程存储视图前完成向本地存储系统的基本操作,而由本地存储系统提供给请求镜像主机的I/O操作完成确认信息。远程的数据复制是以后台同步的方式进行的,这使本地系统性能受到的影响很小,传输距离长(可达1000公里以上),对网络带宽要求小。但是,许多远程的从属存储子系统的写没有得到确认,当某种因素造成数据传输失败,可能出现数据一致性问题。为了解决这个问题,目前大多采用延迟复制的技术(本地数据复制均在后台日志区进行),即在确保本地数据完好无损后进行远程数据更新。
2.快照技术
远程镜像技术往往同快照技术结合起来实现远程备份,即通过镜像把数据备份到远程存储系统中,再用快照技术把远程存储系统中的信息备份到远程的磁带库、光盘库中。 快照是通过软件对要备份的磁盘子系统的数据快速扫描,建立一个要备份数据的快照逻辑单元号LUN和快照cache。在快速扫描时,把备份过程中即将要修改的数据块同时快速拷贝到快照cache中。快照LUN是一组指针,它指向快照cache和磁盘子系统中不变的数据块(在备份过程中)。在正常业务进行的同时,利用快照LUN实现对原数据的一个完全的备份。它可使用户在正常业务不受影响的情况下(主要指容灾备份系统),实时提取当前在线业务数据。其“备份窗口”接近于零,可大大增加系统业务的连续性,为实现系统真正的7×24运转提供了保证。 快照是通过内存作为缓冲区(快照cache),由快照软件提供系统磁盘存储的即时数据映像,它存在缓冲区调度的问题。
3.互连技术
早期的主数据中心和备援数据中心之间的数据备份,主要是基于SAN的远程复制(镜像),即通过光纤通道FC,把两个SAN连接起来,进行远程镜像(复制)。当灾难发生时,由备援数据中心替代主数据中心保证系统工作的连续性。这种远程容灾备份方式存在一些缺陷,如:实现成本高、设备的互操作性差、跨越的地理距离短(10公里)等,这些因素阻碍了它的进一步推广和应用。 目前,出现了多种基于IP的SAN的远程数据容灾备份技术。它们是利用基于IP的SAN的互连协议,将主数据中心SAN中的信息通过现有的TCP/IP网络,远程复制到备援中心SAN中。当备援中心存储的数据量过大时,可利用快照技术将其备份到磁带库或光盘库中。这种基于IP的SAN的远程容灾备份,可以跨越LAN、MAN和WAN,成本低、可扩展性好,具有广阔的发展前景。基于IP的互连协议包括:FCIP、iFCP、Infiniband、iSCSI等。
衡量容灾备份的两个技术指标
RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。 RTO(Recovery Time Objective):即恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。 RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。
容灾备份两个新技术
1、介质备份
阶段备份:可将备份数据划分为两个阶段,近期的备份数据保存在磁盘介质上,为近线备份;访问频率不高但仍具有保留价值的历史备份数据保存在磁带介质上,为离线备份。备份存储柜可通过循环备份以及份数据复制到磁带设备,提供双份备份和双重保护。
远程容灾:可将备份数据周期性地保存到磁带设备上,然后取出磁带介质,运输到异地机房保管,实现数据的远程容灾;当发生灾难需要远程恢复时,只需取出磁带在异地直接读取恢复。
保护遗留资产:既可利用备份存储柜领先的磁盘备份方案保护数据,又可使用磁带介质作双重保护,从而保护已有投资的遗留资产。
2、集中式数据级备份
采用高性能、一体化和节能的备份设备,可支持异构平台环境的集中备份和恢复管理,内置的虚拟介质池功能,使设备具有容量与处理性能呈线性增长的特性,可满足大规模的备份需求。
统一保护:针对Windows服务器环境、Linux服务器环境、Unix服务器环境以及PC桌面环境,可提供集中统一的备份和恢复管理。
全面保护:提供操作系统、应用系统和文件数据三层全面保护,应用系统支持 SQL Server、Oracle、Sybase、Exchange Server、Lotus Domino、DB2、MySQL、Active Directory等几乎所有主流应用,无论是数据破坏,还是业务系统损坏,都可得到完整地恢复。 [3]
IT容灾在企业的现状分析
虽然容灾备份一直备受企业关注,但是根据调查显示,大多数公司并没有对自己的企业IT做好充足的容灾准备。IDG研究服务的调查结果显示,42%的受调查企业仍没有部署现代化的容灾恢复的解决方案,尽管之前这些企业遭受过数据丢失。
这些企业中的多数依然依靠无效的手段流程和磁带进行备份。不过这种备份方式正在悄然变化。大多数受访者预期,在未来的18个月的时间里,他们将用高可用性、自动化系统的系统进行数据备份。这项调查结果也出乎研究者的预料。
在开展本次调查中,研究者发现还惊讶的发现,公司曾经遭遇过数据丢失和IT中断的比率很高。即使系统有系统故障分析和灾难恢复测试,但是很多公司并不把这些策略作为优先项目来实施。
这项调查结果也说明了企业必须保持警觉,部署消除意外损失的自动化解决方案,实施数据保护。
调查发现,目前企业的磁带备份是最普遍的数据备份解决方案,有23%的大型企业,48%的中小型企业和27%的微型企业依靠这项技术来进行数据保护。
75%的IT管理者表示,他们的灾难恢复计划测试,82%的大型企业平均每年一次完成灾难恢复测试。42%的受访者表示,他们的组织至少一次的数据中断,而停机时间超过四小时的任何中断是他们不能接受的,因为IT的中断可能给生产力带来67%损失,其中包含27%声誉损害,而因数据丢失带来的财务损失不可估量。
因为企业IT预算的减少和容灾恢复观念的驱动,很多企业把数据保护和容灾恢复当成企业数据的保险。当今的数据中心,一般都是24*7的不间断服务。美国桑迪飓风的影响,使得很多企业看到了快速的数据恢复和IT服务的必要性,随着越来越多地企业因为采用虚拟化的磁带备份所需的时间和成本的巨大,转向基于磁盘的解决方案。不过专家表示,通过使用高度可用的自动化技术和统一的灾难恢复测试,企业可以放心的处理可能出现的任何问题。 [4]
容灾备份建设模式
要建设优秀的容灾备份系统,主要有三种模式:
1、独立自建
目前在我国,独立自建的模式主要集中于银行、海关、税务等灾备建设需求迫切、拥有强大经济实力、有较好技术支撑的行业。这些行业的独立自建是符合他的行业现状的, 他们的灾备建设对国家经济的健康发展有着重要意义,因此对于这些行业的独立建设模式国家是支持的。
2、联合共建
平行或者垂直的共同建设,所谓的平行可以是一个行业的容灾备份,比如医卫行业、教育行业,联合起来建设行业内的容灾中心。
以城市为单位,相关部门牵头对本市乃至本省内的数据进行垂直集中保护。像陕西省的容灾备份中心就是政府牵头来针对全省的电子政务数据进行集中备份在榆林联合共建了灾备中心,和力记易提供了该项目中所有的容灾备份软件(UPM备特佳容灾备份系统),完美支持了政府使用的国产操作系统和数据库。
3、社会化服务
社会化服务就是将行业或企业的灾难备份业务交由第三方,由专业的灾备服务提供商提供支持和服务。由于灾备服务提供商服务于广泛的客户群,因此拥有更为广泛专业的技能。此外,用户还可以利用服务商的规模经济降低成本并实现资源共享。因此,相比于自建与共建,社会化服务模式具有专业化程度高、成本投入低、资源共享、高服务质量的鲜明优势,也正是这种优势赋予了社会化服务“主流趋势”的强大生命力。
以灾备产业发展较为成熟的美国为例,其独立自建、联合共建与社会化服务三者分别占灾备建设的29%、15%和56%,从数据可以明显看出社会化服务所占据的高比例。“社会化服务正在成为一个主流的趋势。” [5]
国内灾备市场现状
2007年7月,中国《信息系统灾难恢复规范》正式推出,并于2007年11月开始实施,这是中国灾难备份与恢复行业的第一个国家标准。 [6] 《信息系统灾难恢复规范》的推出指明了信息时代各行业进行灾备建设的重要性,同时也暗示了国内灾备市场的巨大潜力。飞康CDP备份/容灾一体化解决方案,真正以快速恢复服务为第一目标。无论用户的应用或者系统乃至数据中心发生何种意外,例如,恶意的程序破坏、文件损毁、人为误删误改、操作系统宕机、硬件故障,甚至整个机房毁于意外,在全面保护下,都能最大程度地保证企业数据损失(RPO)降到最低,业务中断时间(RTO)最短,这也是国内领先的技术成就。 [7] 如今,国内灾备市场的80%被国外产品占领, [8] “棱镜门”的曝光重新将国人的目光聚集到信息安全上,灾备行业的特殊性决定了我们必须争取自主掌控灾备市场,广道容灾备份系统的出现展示出国产灾备商打造优质国产灾备产品、通过自主创新增强竞争力的决心。 [9]