浅谈信息系统应急处置能力评估体系构建

数字化转型
信息系统的应急处置能力作为安全运营的核心能力,在面对新形势下的各类变化和风险下,是否具备在短时间内内恢复生产服务,将业务运营的影响降至最低?

 随着银行数字化转型持续推进和互联网技术的迅猛发展,分布式、大数据等互联网架构应用也逐步在我行试点和推广,银行系统物理架构和技术框架日趋复杂,信息系统的高效稳定运行面临更大的挑战。而作为银行科技的立身之本,安全运营更是科技赋能业务、支持业务敏捷发展的基石。信息系统的应急处置能力作为安全运营的核心能力,在面对新形势下的各类变化和风险下,是否具备在短时间内内恢复生产服务,将业务运营的影响降至最低?因此我们需要具备一个“应急能力”视角下的评估体系,直观展现系统应急能力现状,及时发现应急层面存在的不足,在风险到来前排除隐患,防患未然。

一、应急处置能力评估体系建设的目标和意义

     应急处置能力评估体系的目标是通过科学的评价办法,直观、快速地识别出安全运营工作中存在的隐患和不足,使其既符合应急管理的一般原理,又适用于当前IT应急体系的现实特点。实现自我改进,迭代发展,推动和促进安全运营体系的完善。其具体意义体现在:

1.风险识别

定期开展应急能力评估,发掘故障应急的薄弱环节,及时排除生产安全隐患,确保IT应急管理工作的持续性和有效性;

2.指标导向

直观体现应对突发风险时的业务恢复能力,为各领域应急能力是否达标提供衡量依据,引导应急资源的合理分配,提高故障应急的专业化、数字化和智能化水平;

3.闭环赋能

通过对模型的应用和迭代,检验专业评估能力与风险应对能力的匹配度,促进各专业领域完善风险评估细则,支持系统交付标准的完善和非功能需求的提出,推动应急手段向工具化和智能化迈进。

二、G行现有信息系统应急处置体系

图片

1.运维平台支撑

主要包含基础架构、大数据分析、监管防控和统一门户四层。基础架构层主要包含对机房、网络、存储等基础设施相关的操作和应急处置平台,其中机房管理基于基础设施管理系统,网络管理基于域名解析等系统,云管理基于云管平台,存储管理基于分布式数据库管理系统,灾备基于灾备切换管理系统,底层消息基于分布式消息平台。

大数据分析层负责对运维数据的采集采集、处理、分析和应用,为监管防控层的应急处置和管理层应急决策提出数据判断依据,主要包含基于统一AGENT、科技运营数据平台、运维数据分析平台、容量管理等系统。监管防控层负责依据数据分析层的决策对应用系统进行应急处置,主要包含运维管控平台、运维管理平台、运维操作平台和运维安全管理平台。统一门户层负责基于运维处置诉求和场景对运维数据的统一展示,包含基于运维业务视角、运维管理视角、运维操作视角和运维移动端视角的相关运维平台。

2.信息系统支撑

为保障信息系统整体运行稳定,在故障发生时能够快速发现、定位、处置和恢复业务,在上线前会针对以下领域进行专家评估:运维架构设计、互联网安全测试、网络指标、大数据、容器云、灾备应急、信息安全、监控设计、应用容量、应用运维、批量标准、数据备份、数据库设计、中间件配置、系统及相关指标,整体达标后方可安排相关上线操作,从信息系统自身建设层面保障系统的应急处置和快速恢复能力。

3.流程制度支撑

主要为满足业务连续性要求、保障故障发生时应急操作能够快速有效开展的相关流程制度,具体包含了《业务连续性管理政策》、《应急处置管理办法》、《突发重大较大事件应急实施细则》等。

4.人员组织支撑

包含应对信息系统突发状况的应急处置人员、组织人员和决策人员等。其中应急处置人员主要包括采取初始应急操作的各领域一线人员、根据业务影响和初始判断采取进一步应急操作的二线人员和协助二线进行问题快速定位和分析的三线人员,组织人员主要为保障应急处置快速高效合规开展的事件流程管控人员如事件经理等,决策人员为事态发展到一定阶段需要进行授权采取进一步重要操作的相关处室、中心及部分负责人等。

三、应急处置能力评估体系的内容

图片

G行数据中心借鉴互联网运营理念,融合金融IT传统管理要求,结合现阶段安全运营的特点,就应急处置能力分解为:主动发现能力、影响判断能力、故障定位能力、业务恢复能力、数据恢复能力五个专项能力。

每个专项能力是否达标,除了包括是否满足相关能力的要求,还要考虑到熟练度和自动化程度。最终应急能力达标情况,是综合了专项应急能力指标、熟练度指标和自动化程度指标后的综合评估结果。

图片

图片

四、应急处置能力模型适用场景

1.系统体检

作为系统即将面临预知风险时的应急能力“体检报告”,如重大变更、业务营销等重点保障场景等。对于不合格的“体检项”有的放矢的提前进行防控工作的部署;

2.故障复盘

重大事件发生后,故障复盘时的“对照手册”,对故障当时应急能力水平进行系统性的审视,在整改后重新评估,确保系统或故障场景“体检合格”;

3.系统扫雷

作为系统长期运行后,对于应急能力状况摸底调查的 “扫雷目录”,及时发现运行风险,推动优化。

五、应急恢复能力模型案例

 近期,某系统近期有重大变更,系统对系统整体架构进行调整,由于变更可能引发较大风险,因此对该系统进行系统应急能力评估。经评估,各领域细分能力结果、大类应急能力结果及专项能力结果如下:

图片

图片

结论:该系统变更的应急恢复能力综合定级为“中”,熟练度不涉及,自动化应急能力为L2(部分自动化)。建议管理员完善影响判断、配置备份和应急工具自动化程度等相关事项,采取条件通过投产的模式进行系统投产。

六、应急处置能力评估体系的持续完善

     生产安全运营的形势随着内、外部的变化不断变化,因此事件管理本身是一个动态的过程,没有恒定不变的标准,需要不断的动态迭代完善。一方面,专业领域需要成立专家评定小组,定期对评估对象和评估指标进行重审和完善,另一方面流程管理领域需要基于生产系统运行特点和管理导向对每个评估对象的性质、作用和所处的层次调整评估权重。通过不断地迭代发展,达到应急恢复能力模型自我改进,系统风险及时发现排除,推动和促进安全运营体系不断完善。

      未来,金融信息科技将面临更多发展的机遇和挑战。光大银行在持续提升科技服务能力和创新能力的同时,经过多年的实践和积累,在事件管理方面形成了明确的事件管理制度和规范的应急处置流程,应急手段从标准化、自动化大步向数字化和智能化迈进。快速应急能力模型的构建,推动了IT信息管理向精细化方面再进一步。为故障应急,提供了一个更加全面、直观且富有前瞻性的视角。未来光大银行信息科技将继续大力推进服务化、数字化、自动化、智能化“四化”建设,不断完善事件应急管理体系,落实管理要求,加速提升光大银行信息科技的核心竞争力。

责任编辑:武晓燕 来源: 匠心独运维妙维效
相关推荐

2009-07-02 15:42:46

JSP系统开发

2023-05-31 11:32:36

物联网

2018-07-12 05:45:00

2024-10-15 08:00:00

MES安全网络攻击

2021-10-12 19:02:28

信息系统风险评估网络安全

2020-09-22 07:00:00

事件驱动信息系统架构

2012-12-19 20:15:03

IBM

2020-10-22 17:19:48

大数据

2010-09-26 11:08:44

信息安全管理体系

2016-10-07 21:56:28

2013-06-03 10:59:50

ICT技术华为

2023-06-12 15:43:44

鸿蒙智能家居开发

2014-05-09 11:22:38

虚拟化技术云安全

2015-08-13 09:27:41

大数据天玑科技信息安全

2022-08-16 11:56:47

数据泄露勒索攻击

2020-07-20 15:34:24

Oracle 架构框架

2013-08-22 15:56:15

IT系统IT运维

2021-04-22 12:36:20

网络安全安全运维
点赞
收藏

51CTO技术栈公众号