安全运营红蓝对抗探索与实践

运维
通过持续的探索和实践,G行的红蓝对抗体系已初步建立,主要三个目标也在逐步实现过程当中。

一、红蓝对抗起源

红蓝对抗作为一个军事概念,近年来被广泛应用到网络信息安全领域。蓝军采用模拟真实网络攻击来评估企业的现有防守体系的安全能力,而红军则会对发现的问题进行相应的优化整改。通过这种周期性的红蓝对抗攻防演习,企业可以持续性地提高在攻击防护、威胁检测、应急响应等能力。G行正是借用这一模拟实战、攻防对抗理念,通过建立应用系统故障红蓝对抗体系,来提升管理员在突发事件中的处理能力和效率,保障好业务连续和安全运营工作。

二、红蓝对抗目标

在G行安全生产运营体系中,应用管理员作为系统第一负责人,对应用系统安全运营至关重要。随着G行业务连续性管理水平的持续提升,每年发生较大生产事件的概率逐步降低,大多数应用管理员没有处置重大事件的经验。而每一次生产事件的发生都是一场遭遇战,让每个应用管理员经历“炮声”,让遭遇战变成有准备之战,打赢没有硝烟的安全运营之战是红蓝对抗的首要目标,具体有以下三个方面:

1. 真演实练,提升技术能力和效率:通过多次参加真实故障模拟演练,让管理员亲身体验故障处置的紧迫感,培养管理员故障处置的套路,形成“肌肉记忆”,从而提升故障处置效率。

2. 身临其境,培养主动防范的意识:让管理员处置同业或者是其他系统发生的事件,深刻体会故障危害,确保同类型故障在其他人和其他系统上“不二过”。

3. 以练促治,消除系统潜在的风险:通过演练中的故障注入,查找当前系统潜在问题和不足,并进行针对性的优化和整改,提升系统健壮性。

三、红蓝对抗环境的建设

为真实模拟生产环境故障,红蓝对抗环境对照生产环境进行建设,具体包含:应用系统环境、业务背景压力测试模拟环境、监控报警体系、混沌平台等。基于降本增效原则,主要资源投入采用环境复用方式,具体如下:

应用系统环境:复用我行投产验证环境,系统架构和生产环境基本一致,关键数据与生产环境相当,系统数量覆盖我行大部分的重要系统。

业务背景压力测试模拟环境:主要复用G行非功能测试环境,另外包含部分生产环境交易回放环境和第三方挡板服务器。

监控报警体系:搭建统一监控告警平台验证环境,对接验证环境中应用系统所有主机。监控告警策略与生产保持一致,当应用系统产生告警时,可实时查看。

混沌平台:使用行内混沌平台做故障注入。在主机安装混沌平台探针,通过平台自动注入经典故障,模拟演练场景。

四、红蓝对抗组织形式

G行红蓝对抗演练的人员包含红方、蓝方、组织方、评价方。

演练方式既可以针对单个重要系统,也可以多个系统同时参与。蓝方人员主要负责在应用系统中进行故障注入。红方人员为本次演练应用系统的应用管理员和专业领域人员。评价方人员一般为科技运营中心领导和专家人员,有丰富的生产事件处置经验,可对演练中红方人员在处置过程中的不足进行评价和针对性的指导。组织方负责演练的人员召集,保证演练顺利开展。

一次红蓝对抗演练实践包括:环境准备,故障场景设计、正式演练开展、演练总结等4部分。

图片图片

1.环境准备

演练环境在架构上与生产环境基本保持一致,其背景测试交易主要来自生产上的高频交易。

图片图片

2.故障场景设计

正式演练开始前,需要提前针对演练的应用系统进行故障设计。故障场景设计尤为重要,有效而真实的故障设计不仅可以有效考察到红方的应急处置能力,也可以发现应用系统弱点。故障场景设计主要来源于以下3个方面:

  • 历史事件中的典型场景或该场景的延伸和变体,一些应用系统生产事件场景具备通用性,可以移植于其他应用系统复现事件场景,增加其他应用系统管理员该类事件处置经验。
  • 基于对系统架构的理解,针对某个组件或模块人为制造故障,此类故障场景未曾发生过。故障设计需要基于架构的理解,分析该系统所涉及的基础设施、云平台、数据库、中间件以及应用配置信息等,在这些组件中注入故障。通过此类故障,让管理员加深对系统架构的整体理解。
  • 利用混沌平台随机进行故障注入,例如网络持续抖动、磁盘性能下降、MEM故障。对JAVA类应用还可以注入堆内存故障等。此类故障可考察应用管理员对未知故障的处置能力。

3.正式演练开展

演练开始前,组织方确定演练具体时间,提前通知红方和蓝方预留时间做好准备。演练开始后,组织方召集人员到指定现场地点,请蓝方在验证环境中注入故障,确定引发交易失败,服务异常等告警。然后红方开始真正的事件处置,根据告警描述信息,执行对应的工具箱,初步定位到问题所在应用服务器,登录服务器,检查系统状态、服务状态是否正常。找到日志文件,对日志中错误信息进行解读,定位到引发错误的原因,制定故障修复方案后,应用管理员申请授权进行处置后,检查业务恢复情况,最终在组织方确认修复成功后,演练结束。

4.演练总结

在演练结束后的复盘和总结中,红方会介绍在本次演练中故障处置步骤以及思路,并分享演练后感想。演练评价方会针对演练中应用管理员处置事件时,暴露出的问题进行总结,并给出指导意见,分享事件处置过程中的经验,并针对演练中所涉及到的技术问题扩展延伸。通过演练,管理员既能加强对系统的熟悉程度,增加事件处置经验;也能发掘应用系统存在的薄弱点,并做好风险规避措施和推进优化整改。

五、红蓝对抗演练特点

红蓝对抗和传统演练有着本质区别:传统演练方式一般不制造真实故障,是按照设定的场景和流程进行的桌面推演,目的在于检验流程和应急预案。而红蓝对抗的特点是真实性、挑战性和不确定性:

1. 真实性:红蓝对抗是需要在环境中注入真实故障,并需要双方进行对抗。通过注入真实故障,引发服务和交易失败,直接体现在告警和日志中,让红方按照线索进行排查。

2. 挑战性:红蓝对抗的开展不会事先透漏故障,只有在演练开始的前一刻,才会进行故障注入,故障需要等待红方人员通过层层分析才能定位,具有一定的挑战性。

3. 不确定性:部分故障是随机注入,红方不能依赖已有预案进行处置,需要具体问题具体分析,有较大不确定性,能够暴露系统未被发现的潜在隐患。

总结与展望

通过持续的探索和实践,G行的红蓝对抗体系已初步建立,主要三个目标也在逐步实现过程当中。展望未来,也存在一些需要持续提升之处:

1. 环境覆盖度不够全面:演练环境系统数量未覆盖全部重要系统,背景交易压力未能覆盖全部交易。

2. 故障设计局限性和注入故障繁琐:当前故障场景主要集中在已知的各专业领域发生的故障,具有一定的局限性;此外,故障注入采用手动注入为主,效率较低。

3. 演练环境中的运营配套体系与生产环境尚有差距:演练环境中的业务监控、处置工具箱以及日志中心等配套环境还需补充建设。

在接下来的工作中,我们将重点在三个方面进行推进:一是在资源投入方面,我们将充分利用我行全栈云弹性能力,让演练环境覆盖全部重要系统,并尽量补齐运营配套体系建设;二是在场景设计方面,计划成立红蓝对抗演练专家组,集众智之力丰富演练场景设计,加强与混沌平台的结合,借力混沌平台,让故障注入和演练更加高效;最后是在演练场景方面,将以多系统协同对抗为主,重点是提升各领域管理员在应对复杂故障场景时的分析、沟通、协同和处置能力。

图片图片

作者:孙晓玉

功夫不负有心人,星光不负赶路人。毕业十年,在不同的工作岗位中坚持学习,不断进步,只要坚持不懈的努力朝目标前行,就一定会有收获。工作之余喜欢游泳,瑜伽,乒乓球。

责任编辑:武晓燕 来源: 匠心独运维妙维效
相关推荐

2020-04-20 10:40:19

红蓝对抗网络攻击数据泄露

2022-07-26 00:00:01

安全红蓝对抗渗透

2021-08-02 19:39:51

网络测试路由器

2023-12-20 21:30:26

2019-04-26 12:36:03

2022-12-09 18:58:10

2021-06-25 17:39:35

网络对抗与实践经验

2022-07-28 16:47:32

漏洞网络安全风险

2023-12-13 12:00:05

2024-12-05 12:01:09

2020-09-25 19:46:36

新华三

2013-07-30 09:38:18

2022-07-07 13:39:25

安全运营SOC模式

2013-04-24 09:51:34

2017-09-11 16:34:00

2023-02-08 18:33:49

SRE探索业务

2023-02-03 18:31:35

订单流量录制

2022-08-21 21:28:32

数据库实践

2017-05-18 11:43:41

Android模块化软件
点赞
收藏

51CTO技术栈公众号