引言
全栈云作为G行123+N数字化银行发展体系中基础技术平台的云计算平台,目前已正式投产运行,标志着建云任务已初步完成,但云的建成只是起点,用好云才是难点,建立成熟的方法论、平台工具和人力支撑,将是接下来发挥云效能、为企业创造价值的关键。为此,本文结合业内实践和G行现状,分享下G行全栈云运营体系构建的实践经验。
图1 建云和用云
01运维与运营的区别
准确来讲,运维和运营没有明确的分界线,是不同的能力阶段。简而言之,运维是为了保证产品能够高效稳定地服务用户,运营则是为了帮助用户更好地使用产品,并辅助运营主体发现用户需求、改进产品能力。全栈云场景下,两者的差异主要体现在服务目标、服务对象、服务内容等三方面。
1. 服务目标方面。运维的主要目标是保障全栈云稳定运行,能够持续交付用户所需的云资源;运营的主要目标是向用户提供其所需的服务,并保证用户获得服务的满意度,同时维持合理的服务成本,使应用上云产生真正的价值。
2. 服务对象方面。运维活动侧重于全栈云的软硬件层面,服务对象主要包括网络、存储、服务器、安全设备等基础设施及平台软件;运营活动则偏重云服务及平台用户层面,服务对象主要指平台用户及服务SLA。
3. 服务内容方面。运维活动内容主要包括平台软硬件的故障处理、配置方案设计和配置变更等;运营活动内容主要包括平台演进和容量管理、应用上云支撑、云上应用的运行保障等。
02全栈云运营体系的构建思路
2.1 概述
运营管理活动包括运营目标、运营方针、运营模式、运营体系等四个层次。运营目标是组织运转的中长期目标,建立在其责任与定位基础上。运营方针是为达成运营目标而提出的在一定时期内的总体性指导意见,是实现运营目标的主要途径和重点方向。运营模式是运营的总体方式方法,说明了在运营方针的指导下运营要素的定义及运营要素之间关系。运营体系则是运营目标、运营方针、运营模式等抽象理论指导在企业内的具体实践落地。
图2 运营管理概念图
总而言之,运营目标和运营方针用于指导运营模式的建立,运营模式用于指导运营体系的规划,运营体系则用于支撑运营模式的维持和运转。
2.2 运营目标
云的运营目标通常包括以下几方面内容:
1. 为企业应用提供满足其运行要求的服务,即设计、开发、建设、交付贴近企业应用运行要求服务,并尽可能实现能力共享。
2. 实现友好的服务交付过程,即制定合理的服务申请、审核和交付过程,能够按时、按质、按量交付应用运行所需要的服务。
3. 设备资源的有效利用,即在充分满足应用运行需求的基础上降低设备和平台的采购、建设、维护成本。
现阶段G行全栈云的运营目标是实现资源的精细化管理和敏捷交付,支撑金融科技创新。
2.3 运营方针
云的运营方针在运营的不同阶段,应根据企业战略和用户需求的转变而调整。建设初期的工作重点在于提升服务交付能力,建设中期的工作重点在于提升产品质量和产品丰富程度,建设后期的工作重点则在于提升客户满意度。运营方针的改变影响到组织的力量投入与政策倾斜,可能会造成运营模式的调整。
全栈云现阶段运营方针为立足企业级服务视角,以用户为中心,业务需求为导向,通过快速迭代完善全栈云运营体系建设,实现面向公司各级业务主体的价值创造,助力运营目标的实现。
03全栈云运行体系的设计实践
3.1 运营框架
关于云的运营,业内暂无通用解决方案,大多仍参考华为、阿里等商业化云服务提供商的运营模式体系。G行主要参考了华为云的运营模式,结合全栈云运营现状和差距分析,以典型场景和需求为载体,构建了“两大运营内容、四大支撑体系”的运营体系框架,旨在实现IT资源、能力服务的“企业级”共享。其中,两大运营内容包含平台运营、应用运营,四大支撑体系包括组织体系、流程体系、工具体系、评价体系。
图3 全栈云运营框架设计
3.2 运营内容
3.2.1 平台运营
以全栈云的稳定运行为基础,面向客户业务需求,适配不同的服务和技术要求,保障业务应用的可靠运行,同时兼顾平台自身的优化和扩展。从自身的服务要求出发,可以拆分为租户精细运营、可视化运营、自动化运维三大专题:
1)租户精细化运营:通过多级租户分权分域管理、租户计量机制、云服务产品目录管理、以及各级租户的容量管理达到租户按组织层级管理的便捷性。
2)可视化运营:通过数据中心展示、租户资源展示、应用性能展示了解硬件资源和云资源状态情况,监控各级租户资源分配及使用情形,掌握应用资源、组件、KPI、应用拓扑等性能趋势。
3)自动化运维:通过运行保障、故障智能诊断、维护操作自动化构建全栈云场景下自动化运维能力,实现运维流程的集中化、标准化、规范化,故障诊断的场景化和智能化,有效降低因重复操作带来的工作压力,降低操作风险,提高运维质量,提升运维效率和满意度。
3.2.2 应用运营
面向用户的业务需求,提供具有针对性的定制化运营服务,解决用户在应用上云过程中的问题,指导用户快速上云。应用运营根据上云过程行为分成业务快速上云、应用开发支持、资源按需供给专题:
1)业务快速上云:通过建立一套完整的上云评估机制,针对应用类系统上云可行性和风险进行分析,结合应用类系统需求从部署模型、资源交付、高可用架构等方面制定上云方案,并设计相应的云服务,构建开放共享的云服务清单,保证业务上云的便捷高效。
2)资源按需供给:对租户项目的云资源配额进行审批、登记、部署、发放和状态跟踪,通过制定资源发放和回收策略,合理发放云资源并周期性重检回收闲置的云资源,降低业务系统稳定运行成本,确保资源合理分配和使用。
3.3 支撑体系
人员组织体系:遵循组织协同一体化、职责定义清晰化、活动处理流程化、团队建设梯队化、个人能力纵深化等原则,建议设立以下班组或团队:调控组、运行组、产品组、客服组、交付组、专家组。
流程规范体系:为有效开展全栈云运营工作,实现服务能力和服务质量的持续提升,服务成本的持续优化,适应从运维向运营的转型,需重新规划流程和规范,为运营服务提供流程体系保障。
工具平台体系:按照标准化、模板化、工具化、自动化、智能化的持续演进原则,将运营过程中的各类技术和流程调用封装成成熟、可靠、易用的工具产品,降低人员技能要求,降低人力成本,降低手工操作风险。围绕应用上云和故障诊断,主要打造上云资源申请模板工具、资源交付监控工具、上云迁移工具、调用链分析工具等支撑工具。
价值评价体系:从质量、进度、成本等维度,构建以“服务连续性指标”、“客户服务指标”、“资源与能力建设指标”为核心的服务评价体系,搭建与运营体系相适应的能力模型和考核指标,通过对服务质量的分析,衡量内部团队运作效率和外部运营效果,明确流程设计是否科学、上云服务是否及时等,激发运营人员的积极性和创造性,推动运营体系的改进和优化。
总结
所谓“三分建设、七分运营”,云的建成只是起点,云的运营才是后续的重点。G行在设计全栈云运营体系时,充分分析了全栈云运营所面临的问题与挑战,并结合现有的安全运营体系,按照“服务方式从被动向主动转变,思维方式从成本导向向价值导向转变”的工作思路,从运营目标、运营方针、运营模式、运营体系等四个层次完成了整体运营设计。希望以上内容也能够为同业提供参考,同时G行也希望与同业开展深入交流,共同打造面向整个行业的运营解决方案。