移动互联网时代的到来对银行业务敏捷性提出了更高的要求,日常受理来自分支行系统和应用的服务请求数量增长了30%,以传统IT架构应对业务增长,使得银行运维维护压力急剧增大。如何既保证业务的稳定性又可以高效应对业务增长需求?光大银行的“全行一体化”构想就是在这种大背景下产生的。光大银行实施“全行一体化”是由总行统一规划并承建私有云,总行相当于云服务的提供商,分支行相当于云服务的使用者,实现总分行开发、测试和生产环境的统一承载、高度复用、高效供给,降低全行科技投入成本。
“全行一体化”总体架构
光大银行早在几年前便开始了针对全行科技在云计算层面进行了全面规划,首先建设开发测试云,验证了业务与云的结合效果;随后利用2年时间开展生产云建设和实施,将总分行的应用系统部署至私有云环境中,由总行统一管理计算,存储,网络资源;同时,在全国分行范围内建立了二级资源池超融合环境,为分行提供集中管理的规范化IT基础环境,减轻分行快速增长的运维压力。本文将结合光大私有云环境IT架构介绍超融合架构在该项目中的具体实践。
全行池化 统一灾备 分行瘦身
光大银行基础设施云中的资源池利用虚拟化方式构建,既保留了各分行逻辑上的独立性,也保持了整个资源池的共享。在规划上主要以“全行池化”、“统一灾备”、“分行瘦身”三个方面来实现“全行一体化”的构想。
“全行池化”:建立涵盖总分行的异构资源池,通过集中管理、统一调度,实现高效共享、统一调度、成本优化,提高IT资产的利用率和自动化运维能力,有效控制数据中心规模扩大时的运维成本。
“统一灾备”:借助私有云突破总分行资源管理界限,提升全行一体化灾备能力,进一步降低分行灾备建设成本,提高分行业务系统的可用性;并基于“云备份”建设,实现全行数据保护。
“分行瘦身”:通过分行应用运行环境的上收和一体化管理,统一全行服务供给,实现分行IT规模“瘦身”,使分行科技人员能够有更多的精力参与业务营销。
光大银行私有云架构以分布式部署、集中管理、统一调度为原则进行建立,在总行双活数据中心分别部署管理模块和资源池;在分行按需部署本地资源池,总行通过标准化服务交付方式,进行集中管理、统一调度,并且使用软件定义的方式提升资产的利用率和自动化率。
根据容量规划,基于1∶15的虚拟化比例,现有资源能够满足未来3年的科技发展需求;资源交付时间由原有的22小时缩短到半小时;通过行内规范和标准的自动化部署,保证了所交付资源的稳定性和健壮性;完成私有云建设后,可一次性地节省基础设施投入近亿元,每年维护成本降低上千万元。
从维护角度看,通过分行生产云和一、二级资源池建设,分行本地的基础设施规模大幅度瘦身。分行本地的服务器数量下降90%,服务器机柜数量下降87%,维护人员数量下降48%,大大降低了分行工作量。分行能够有更多的资源参与业务营销,实现“客户经理+业务经理”的营销模式。此项每年可节省运维费用超过千万元。
在灾备建设方面,通过将分行本地重要应用系统迁移至一级资源池以及分行生产云所具备的二级资源池向一级资源池的流动能力,分行已不再需要建设传统的同城灾备机房,仅需要建设网络级灾备就能够满足业务及监管机构对于同城灾备的要求。仅此一项全行就节省资金近亿元。
分行本地二级资源池规划
光大银行分行都自行建立机房,服务器、存储及网络设备也由分行自行采购及运维。这样机房空间限制、电力供给限制,造成各分行的机设备使用情况相差较大,总行很难进行统一管理,在业务需求变化时也较难统一规划。运维上分行IT技术人员稀缺,而且大多数都身兼多职,精力分散技术能力不足,虽然总行技术资源相对充足、经验相对丰富,但由于难以统一管理,造成沟通成本占用很大工作量。以至于一些基础设施逐步变成孤岛,标准无法统一,加大运维风险。随着各级监管对分行审计要求的增高,每次检查都能出现大量问题,总分行只能加班被动解决,疲于应付。
根据分行的实际情况结合“全行一体化”规划要求,使用超融合架构可以满足用户业务增长对资源的需求,实现总行对分行资源的统一运维管理,提供对分行业务资源的敏捷调控。首先通过超融合的统一硬件架构给分行提供标准化环境,之后依据迁移规范进一步对分行业务进行梳理整合,***形成全行规范统一的自动化业务管理流程。此外新建分行时,超融合架构能预先在总行完成分行基础平台的搭建,待分行基础网络搭建完成后迅速上线,减少传统模式本地基础业务环境建立所需的人力及时间成本。由此可见利用超融合基础架构快速部署、计算网络存储融合、统一运维管理的特性,能够快速提升运行效率、提高运营能力和完善风险控制。
分行本地二级资源池规划
分行本地二级资源池使用效果
快速部署、有效迁移应用
利用出厂预配置特性,用户可以提前做好配置规划,超融合基础环境到用户现场只需简单上架及网络连线后,即可由总行开始进行统一管理和资源发放。在系统迁移阶段,能够提供专用p2v、v2v工具使用户使用简单的图形化操作即可快速完成。***批的基础应用系统迁移,在不到一个月的时间就完成了319台服务器的迁移工作。具备快速部署、有效迁移的超融合架构给“全行池化”的构想提供了有力的支撑。
资源整合、统一管理、分行容灾
光大银行的二级资源池使用的超融合基础架构,每家分行部署6台高性能X86服务器组成统一的本地资源池,以软件定义的方式提供计算虚拟化和存储虚拟化服务,分行不需要再部署其他共享存储即可利用原有网络环境实现无单点故障的高可用环境。超融合基础架构具备模块化的无缝扩展能力,无需中断业务就可以随时进行硬件资源扩展。
二级资源池纳入分行生产云统一管理,分行生产云是面向分行业务的基础设施资源,采用总分两级分布式部署模式,有云管理平台统一对外提供服务。一级资源池部署于总行双活数据中心,使用总行生产云相同架构;二级资源池部署与各分行本地。分行通过总行提供的统一云管理平台自助在分行生产云上申请资源,系统依据应用特性、流量模型、资源模型和监管约束等因素,将与分行本地流量较小、资源负载较轻的重要应用系统部署在一级资源池,而将与分行本地流量较大、资源负载较大、监管要求本地部署的应用系统部署在二级资源池。结合这种部署策略,分行仅需建设网络容灾环境,即可实现对分行重要业务的有效保护,以较低成本提升分行业务连续性来满足监管要求。
目前分行生产云为38家分行提供服务,一级资源池运行875个应用系统,二级资源池运行526个应用系统。总分架构两级资源池的集中管理实现了总行对全行IT资源的全面掌控,节省了机房空间、电力及设备管理的成本,提高了资源利用及交付的速度,减轻分行运维工作有效的释放分行的科技生产力,从而达到“分行瘦身”的目的。
业务交付效率提升、技术标准规范
在原有的工作模式下,一个全分行部署的统一应用平台需要经过硬件采购、试点分行部署、试运行、分批推广部署等步骤,消耗大量资金、人员及时间成本,而之后还需要持续保持大量投入才能进行有效的统一管理及可靠性运维。
为了解决这个问题,光大银行在总行使用与分行相同的超融合基础架构建立了测试发布平台,应用系统先在这个平台上进行部署安装,部署完成后克隆出多个模板分配给各分行进行独立测试,测试完成后迁移到分行二级资源池环境中即可完成。这样不仅极大的节约了资金、人力及时间成本,而且使资源标准化、规范化,提高业务平台的稳定性,满足各级监管需求。同时因为资源的标准化配给,使得实现资源的端到端交付成为可能,全面提升了生产、办公以及开发、测试的效率、灵活度以及安全性。将原来几个月才能完成的任务,缩短至几周即可完成。
完善分行容灾能力
从分行的硬件资源来看,以传统IT模式建立分行容灾环境需要解决很多问题:计算、存储、网络设备冗余性的需求;机房空间、电力的需求;技术人员数量及能力的需求。设备双备份,对机房电力要求也成倍增加、技术维护人员也成倍增长,几个方面的需求累加会使资金投入几何倍数的增长。
超融合基础架构通过虚拟化整合计算资源,通过分布式存储整合存储资源,使得利用少量通用X86服务器即可实现无单点故障的计算存储平台。基于1∶15的虚拟化比例,可以将近百台服务器集中到6台标准X86服务器组成的超融合基础架构中。利用虚拟化技术的高可用特性使得部署在超融合上的分行应用具备了高可用能力,利用分布式存储的快照功能改变了原有传统备份方式,加速了数据保护的效率。
这样利用超融合架构大幅减少设备的使用量,也就减少了对机房及电力的需求。另外利用总行统一云管平台对超融合基础架构进行管理,也降低对本地技术人员的需求。同时,分行基础设施精简后积极建设分行本地的备份网络,实现分行网络层面的容灾,从而完成了“统一灾备”的构想。
分行容灾能力规划
全面实现“全行一体化”的目标
对资源、运营、成本的集中管理,实现了全行集中供给,集中调配;提升了整体的运营水平和能力;IT资源建设复用度更高,极大降低重复建设,根据用户使用情况进行成本优化和成本分摊。
由此可见,超融合架构高度自动化,部署维护简便,弹性水平扩展等的特性十分适合在金融机构部署,能够有效降低数据中心TCO且提升业务可用性,在各金融机构的分支、业务中心、甚至数据中心都有很好的推广价值。