应对多种场景,运维人是如何做好业务活动保障的

新闻 系统运维
每一场大规模业务活动都是IT运维人员的“练兵场”,成功承担高并发访问的背后,都有集团科技IT团队专家们利用自己活动保障的丰富经验、专业的技术水平和夜以继的辛勤坚守。

 [[315314]]

作为金融行业的领头羊,平安集团每年都要面向广大客户举办多场业务活动,如秒杀、赠险等。业务活动形式不同,对IT系统承载能力的要求也不同。

每一场大规模业务活动都是IT运维人员的“练兵场”,成功承担高并发访问的背后,都有集团科技IT团队专家们利用自己活动保障的丰富经验、专业的技术水平和夜以继的辛勤坚守。

那么,平安运维人是如何做好活动保障的呢?

01 梳理IT服务现状,寻找风险点

知己知彼,方能百战不殆。规划业务活动时,IT团队需对当前服务现状进行全面梳理,结合核心业务流程,制定有针对性的、有效的应急方案,寻找潜在风险点并优化。

活动场景梳理

了解活动场景是做任何活动支持方案的首要行动项。不同活动形式,如秒杀、免费赠险、办公签到等,均有不一样的用户表现。不同活动对系统性能的要求也不一样。

例如,秒杀的用户行为更多表现为集中时间点登陆,集中访问特定URL;免费赠险则为某段时间内的持续用户登陆,但广告推送、非工作等时间段访问量会有明显增量,但相对均衡;办公签到等有时效要求的活动,则是在某特定时间段区间内,存在集中峰值。

例如春节期间的直播活动,其带有办公签到的集中上线性质,在该类活动中,需重点保障高峰期间用户登陆、直播间进出、推拉流等场景。同时,直播间的个性化服务,如送礼物、IM等场景,则需分析其业务场景的核心程度,定义保障等级。

活动场景梳理完成后,需产出但不限于:业务活动形式、活动最高并发用户及请求量、活动核心业务场景、活动时间区间等内容。

应用架构梳理

活动场景及保障等级梳理完毕后,可以根据提供功能的系统组件逐步梳理出组件上下游调用关系,整理应用架构信息。

在整理应用架构信息时,一方面需关注组件的架构方案是否符合活动形态,如秒杀类活动,不适用对关系型DB进行高频次操作的架构,应以异步消息、高速缓存等轻架构应对前端高并发流量;

另一方面需关注业务场景实现过程中的调用关系及数据流,需区分业务场景数据流中的“关键”与“增值”。“关键”即为必须调用链,任何情况下均无法做降级服务;“增值”即为体验链,需考虑功能开关、服务降级等措施,可作为应急预案中的有损服务的保障措施考虑点。

需重点提及,很多团队在做应用架构梳理中,主要关注于应用,往往容易忽略网络层、机房等基础资源。网络层如出入口的流量、CDN服务等;机房架构如多活架构、云平台底层资源等,均是活动期间的评估维度。

应用架构梳理完成后,需产出但不限于:应用层面架构图、核心数据流、关键服务与非关键服务清单、组件集群清单等信息,基础架构层面如网络、云平台、多活策略等信息。

配置信息梳理

应用架构梳理完毕后,通过梳理配置信息,了解应用层各组件CI的配置环境。配置环境包含集群数量、集群上下游调用策略、集群在JVM的配置等(如线程数配置,内存配置等)。

同时需梳理基础架构领域的网络带宽、云主机的最大IO控制、甚至每个集群的对外防火墙策略。

A、应用的日志文件及日志输出级别是否合理。如常见的nginx日志、tomcat组件的out日志、acclog等,同时还需关注SDK日志。在与第三方服务合作中,常以SDK介质作为系统间的融合方案,SDK若涉及到PC客户端、移动客户端,需重点关注SDK的奔溃日志、接口请求日志等,需检查日志是否有回传机制,避免在生产发生异常时,无法获取SDK日志信息作为问题诊断的基础。

B、 各应用组件的核心URL请求及功能点描述。对于应用服务的核心URL,需有功能点的登记及描述,可作为请求分析的基础信息输入。

监控方案检视及部署

配置信息梳理完毕后,即可对涉及到的所有显性CI、隐形CI做监控配置的巡查检视。集团IT团队在用户体验(客户端/浏览器端/小程序端/用户感知)-服务链路-基础资源-业务趋势等层面,基于存在性-存活性-可用性-健康与效率等四个方面制定常规监控方案。除此以外,还有不限于以下范围的特殊监控:

A、应用异常标志性关键字监控;

B、 非标组件,需研发配合,实现可衡量服务运行状态正常的标记接口或日志;

C、 与第三方服务交互的应用场景,需考虑监控需覆盖第三方服务可用性、容量,甚至在异常现场需提供snapshot、崩溃日志、异常请求返回错误代码号等监控信息。

容量评估及扩容方案

基于业务活动重点场景的当前CI运行状态数据,预估系统当前可支持并发量,与业务预期并发量进行对比制定初步扩容方案(该评估为初步评估,因业务活动综合多类场景,无法准确评估容量比例,此评估可作为扩容参考)。其中扩容方案除常规的应用实例扩容外,还需考虑网络出入口带宽、CDN带宽、数据库容量、存储容量、信令容量,以及配置类容量(实例的最大连接数、主机的文件打开最大数)等。

在扩容方案中,需注意:

A、在多层架构中,下游系统组件的容量需大于上游系统容量,避免系统容量在上游进来后引起后端的崩溃式堵塞;

B、 扩容策略需与业务场景充分结合,业务场景的降级级别与服务的容量策略需定义关系表,如当某A组件达到CPU资源95%时,某低级别的业务场景的降级服务需可快速配置,避免影响A组件的整体容量异常。

生产压测及监控分析

使用压测手段验证扩容后的效果。结合活动场景、业务服务功能点,按逐步提升并发的方式制定压测方案。分析压测报告、监控信息的汇总报告,按照扩容策略分析存在容量资源瓶颈点,但需要警惕:

A、对瓶颈组件扩容后,同时需再做一次“回归压测”,观察其下游服务是否因此出现瓶颈;

B、 压测所发现的容量或性能瓶颈,并非所有现象均需要通过扩容方式提高保障,有时可通过服务拆解等架构优化、服务接口的代码优化等方式达成效果。

TOP缓慢SQL/接口分析

TOP缓慢SQL/接口的分析梳理,是提升当前容量及性能的非常有效的手段。缓慢SQL的优化,通过执行计划、高并发类的SQL转换为缓存计算等方式,可明显提升对应服务接口的效率。

每次业务峰值,缓慢SQL、缓慢接口很容易导致服务线程积压堵塞,甚至占用大量内存。对于缓慢接口可通过threaddump分析,缓慢SQL如ORACLE,则可WAIT_EVENT/longsession/lock/latch_free等维度做分析,并由DBA/研发提供优化方案。

应急预案整理

应急预案通常分为两大类型,一是业务层面的应急方案,二是IT组件异常应急方案:

A、业务层应急方案,可通过应用服务降级、服务中断、业务开关等方式进行,同时可以通过业务错峰等策略,实现高峰均匀;

B、 IT组件异常方案,一方面需以最窘迫情景分析,以每个组件为分析对象,当该组件异常时,是否可以以服务重启/环境切换/功能开关调整等方式恢复;

另一方面,对于大面积异常时的方案,是否可采用限流、多活切换、有损提供部分功能等方式继续提供服务,但该类策略需与事先与业务达成一致。

02 做好过程监视,不放过任何细节

不放过波峰细节,了解业务最前线

保留活动过程的现场是IT服务持续优化的最宝贵信息来源。在瞬间波峰时,基础资源的稳定性、服务层面的性能波动、服务层面的功能报错率、网络流量、网络建联的上限控制等,需充分分析及记录相关现象,运用监控时序数据、应用日志、甚至抓包等手段信息,逐步复原。

注意,我们通常会关注波峰时的系统容量、性能,但往往会忽略一点,即业务层面的用户行为分析。我们为了达到整体稳定目标,对业务核心功能进行重点保障,对非核心功能做有效隔离、错峰等措施,也能起到很好的效果。

比如在直播活动中,我们最常用到的功能点有直播间的进出、直播视频的推拉流、送礼物、IM聊天等,但对以上提及的内容,最核心的功能点是直播间的进出、直播视频的推拉流。在容量扛不住的情况下,可关闭送礼物、IM聊天功能;另外一种场景,直播间的创建与直播的现场是两个不同场景,但可能会占用同一组件资源。当直播高峰时,可以考虑直播间的创建功能临时错峰,避免资源竞争。

全面检查,寻找不合理的表现

在活动结束后,需安排对业务、应用、平台等方面进行全面检视。如对监控数据进行全面数据分析;对活动高峰期间的业务TOP URL/SQL进行分析;应用层面的服务链路性能及错误的变化现象;从平台层面检视带宽、连接数、云平台的超负荷状态等;寻找在资源上、业务行为上、代码健壮性等层面的异常现象,并逐个形成分析和跟踪措施,从架构优化、扩缩容、代码优化等方面安排改进。

03 良好的组织联动,是成功的关键

团结一心,分工明确,联动沟通

好的组织纪律,明确约定的工作沟通方式,团队间达成信息透明、主动协作,是保障活动工作有效、高效开展的条件。

业务活动保障,通常是由多个团队的多个角色临时组件的团队负责完成,有运维、业务、产品、架构、开发、测试、平台、基础架构等各个技术领域的人员,还可能涉及外部厂商。我们需要采取措施,妥善组织众多不同背景的人员,避免混乱,让大家拧成一股绳,共同朝向一个目标努力。

供应商沟通同样重要

在生产问题诊断中,供应商是常常被忽略的角色,如网络CDN、ORACLE厂商、网络设备厂商等。应用层面达到一定的优化程度后,供应商从底层出发协助提供优化方案,往往能够起到事半功倍的效果。当然,在业务保障过程中,对提供服务的厂商要信息透明,这也是一项基础要求。

生产变更操作必须评审、记录、透明

活动保障过程中,一切生产变更必须统一评审后再操作。生产变更历来属于风险极高的动作。在业务活动保障工作中,专业团队常会出现“我发现了某个参数貌似不对”,就默默地调整了参数。

这种做法没有在保障团队中做记录,当参数的调整引发生产问题时,无法回溯变更,无法快速定位异常导致点,常会导致问题定位效率低下。

因此,不管在架构检视、压测、扩容、业务峰值后的检视措施等过程中,涉及到的生产变更方案及计划,都需要进行评审,记录,形成有跟踪措施的变更计划,信息要透明。

写在最后

世上本没有什么岁月安好,只不过有人替你负重前行。疫情前线,医护人员的忘我奉献,谱写着一曲又一曲感人至深的赞歌。互联网时代,在一场轰轰烈烈,用户拍手叫好的大规模业务活动的背后,通常也是有无数IT技术专家们夜以继日的辛勤坚守。

业务活动的保障支持,是一项极高强度的IT事项,需要IT人员具备敏锐的信息收集、分析、应急能力,同时需要各技术领域专家集中贡献专业能力。只有在每场活动中积累经验,在技术上不断寻求创新,我们才能游刃有余,在每场业务活动中突破自己,缔造运维人员自己的传奇!

作者:黄伟星,平安科技运营工具平台团队监控规划及方案实施组,负责平安集团Wiseapm监控产品建设与实施工作。 

 

责任编辑:张燕妮 来源: 高效运维
相关推荐

2018-05-24 23:26:37

云数据中心运维云计算

2013-05-31 09:34:21

IT运维云时代IT运维审计

2022-06-22 08:02:01

业务监控Web站点监控

2018-12-21 08:33:15

数据中心机房运维

2016-01-13 13:13:29

运维监控工具

2018-06-23 07:31:05

2020-01-31 11:22:33

运维架构技术

2020-03-10 10:19:21

疫情远程办公技术

2016-01-07 15:21:26

2018-08-16 08:37:03

机房运维硬件

2016-11-25 17:51:48

华为ICT

2018-11-15 12:19:07

运维管理业务

2022-03-14 08:40:48

数据MRDPRD

2013-05-06 15:10:18

IT运维管理大数据

2019-03-15 10:13:10

运维云计算运营

2021-07-03 09:21:15

QQ游戏中心宣发平台运营

2015-09-30 11:45:30

自动化技能运维

2019-02-19 09:14:52

IT运维系统

2017-10-20 22:57:44

2016-04-18 17:52:43

点赞
收藏

51CTO技术栈公众号