本文转载自微信公众号「匠心独运维妙维效」,作者冯帆。转载本文请联系匠心独运维妙维效公众号。
一、引言
当前云计算市场竞争愈演愈烈,云厂商百家争鸣,各类云服务与云产品五花八门、层出不穷,例如AWS和阿里云就分别提供超过一百种云产品和云服务,这些云服务中有许多是专有的,云厂商把这些专有服务变成自己区分于其他厂商的手段。这导致云计算市场缺乏事实上的标准......尽管不少人呼吁云计算标准化,但云的差异化却日益增长。目前大多企业数据中心基础设施不断云化,为了减少对单一厂商的依赖、使企业能够充分利用每个厂商的相对优势、优化云的使用和成本,企业通常不会只选用一家云厂商的产品。但是引入的云厂商越多,管理任务就会变得越复杂。这导致云管理技术迅速发展,试图解决各家云厂商服务之间存在的技术壁垒问题。
全栈云作为G行123+N数字化银行发展体系中基础技术平台的云计算平台,目前已正式投产运行,标志着建云任务已初步完成,但云的建成只是起点,用好云管好云才是难点和重点,“双栈并举、一栈多芯”的技术架构给我们带来了丰富的技术应用场景,但也带来了使用和管理上的复杂性。建立成熟的云管理方法论、以平台工具支撑,将是接下来发挥云效能、为企业创造价值的关键。本文主要介绍G行为什么要把全栈云纳入其云管理体系中。
二、G行云管理平台建设回顾
时间回到2014年,随着G行对云计算平台建设的快速推进,G行总行生产云、分行生产云、全行开发测试云已初具规模,基础设施涉及X86架构、超融合架构、Power小机,私有云涉及VMwarevSphere、FusionSphere、OpenStack、KVM、Hyper-V、小机虚拟化等技术。云基础设施环境相对复杂,而云计算平台的资源规模在G行基础设施中的占比越来越大,如何对云进行有效管理并显著提高云架构带来的收益,这一问题在当时给G行基础设施管理带来了巨大的挑战,G行云管理平台项目在这个背景下应运而生。
G行云管理平台的建设目标如下:
提升异构基础架构统一纳管能力,支持超多家云厂商异构资源的纳管。
- 精细化的管理,除各类计算资源外还可管理NAS、防火墙、F5、各类数据库、中间件等各类服务。
- 个性化的服务供给,支持用户自助服务编排。
- 支持跨部门跨团队协作,提供7*24小时用户自助服务,服务工单自动跟踪催单,加快服务效率。
- 提供一整套云上资源运维工具与规范。
- 加强运维过程安全机制,对各种异构资源、用户使用资源具体行为等进行安全审核与监控。
三、为什么要把全栈云纳入云管理体系?
站在建云的角度,全栈云的建设是先进的,这里不再说明,读者可以回顾全栈云建设篇。站在用云、上云、管云的角度,全栈云是复杂的,“双栈并举、一栈多芯”的技术架构给我们带来了丰富的技术应用场景,但也带来了使用和管理上的复杂性。首先,对于应用系统项目组来说,全栈云技术壁垒较高,“VPC、VBC、安全组、EIP、LB、微隔离...”映入眼帘的首先是一堆新概念,心里首先会产生畏惧感。所以我们设立了全栈云运营小组,让应用交付人员来做全栈云咨询的工作,帮助项目组理解这些技术概念、梳理系统上云结构。
图1
站在云管理的角度,通过我们积累的云管理标准与体系,整合并封装全栈云双技术栈,对应用系统屏蔽掉他们并不关心的技术细节,把全栈云试运营过程中固定下来的经典的应用部署模型与云服务目录通过G行云管理平台线上提供,同时也支持项目组根据自己的需求进行可视化、拖拉拽式的调整,自动生成上云工单。我们的应用交付人员对工单进行审批和调整,以业务和服务为视角,将单一或多个应用以不同的业务或应用场景可视化的编排为应用集群,实现一键自动化的跨云部署。这对于整个全栈云运营来说,是极大释放生产力的。
图2:云管理平台云资源编排引擎
四、推进云管理服务生态建设
G行123+N数字化银行发展体系中的‘2’代表两大平台,一是云计算平台、二是大数据平台,在这个体系中云计算平台最关键的任务就是推进全行应用系统上云,所以最能衡量全栈云的指标就是上了多少应用系统、尤其多少关键、重要的应用系统,应用系统上云的的确确是我们的第一要务。但是应用系统上全栈云绝不是我们硬生生把应用系统抬上去,因为上云对于系统来说只是开始,不是结束。我们要站在应用系统角度思考,我们给应用系统带来了哪些。除了更丰富的云服务,提供基础的计算、存储和网络云服务外,我们还要努力推进云管理服务生态的建设,提供灾备即服务:为核心业务提供数据可靠性和业务连续性保障;安全即服务:支持租户灵活按需申请安全服务能力;PaaS服务:为满足容器、微服务架构,以及中间件和数据库的服务化能力,其他还包括全栈云韧性能力、应用流量可视化、DNS服务、容器安全等,为应用系统上云做好周边服务,解决其后顾之忧。
我们也要对全栈云本身进行治理和加固,努力提高云资源使用率、降低云资源浪费,通过我们积累的云管理流程与算法,推进云的可持续发展,积极响应我国碳中和战略。同时对全栈云基础架构,云和数据资源、应用等多种资源监控告警、日志分析、调用链展示等,将被动告警变主动监控。用多种告警压缩方法(汇聚,闪断,震荡,关联,屏蔽)来提供故障快速定位能力,减少监控的告警数量;将支持基于对象关系的告警关联方法,高效定位故障。同时故障自动工单派发,故障自愈,实现端到端自动闭环。增加AI手段,包括KPI异常检测(动态基线),自动检测指标数据是否异常,如果判断异常则产生告警;容量预测,通过对云存储历史数据的分析,模型训练,预测未来时间段的容量使用趋势。
图3
不管是全栈云,还是以后的云平台,我们都应以“传统设施即服务”的观念,基于我们在云管理领域的积累,围绕任何IT即服务,实现‘交付’和‘治理’全覆盖。真正实现以业务为中心,面向服务,侧重资源和应用治理,加快业务创新,推动G行IT云化从前期的资源建设向能力建设转型,实现了以业务价值为导向驱动IT建设的目标。同时为数据中心赋能,构建最符合G行的实际使用场景,让云管理成为“科技业务”的“入口”。向下提供各类IT资源及能力的通道,向上提供各种框架,包括审批流程自定义、应用编排应用编排、作业编排、IT能力编排、计量计费引擎、自定义报表等,实现广泛的IaaS、PaaS各类应用服务,支持广泛的异构资源,同时将能力对外围系统开放。
图4