昨天在微信群看到一个很有意思的话题:SRE如何提升自己在团队中的影响力?
图片
该问题一出,群里讨论异常激烈:
有人说:要量化,比如本周发现并解决了多少问题,优化提升了多少效率。
有人说:要向上管理,通过周报、月报、年报等方式让领导看到你干的事,领导觉得好,那就是好。
有人说:要主动,要站在领导角度、业务角度、团队角度去解决他们的痛点、难点、关心点。
还有人说:管他三七二十一,安安心心领工资就得了,别想太多。
下面,我来谈谈个人看法。
内心OS:这是江湖,技术固然重要,人情世故不可或缺。
被忽视的 SRE
公司越做越大,业务越来越多,系统越来越复杂,有人指点江山,有人冲锋陷阵,有人默默坚守。大部分情况下,SRE都是默默坚守的存在,他们为系统的稳定性辛勤付出、呕心沥血。
然而,SRE 的工作却常常如同隐匿在黑暗中的微光,虽至关重要,却鲜少被察觉。以某知名互联网公司为例,在一次大型促销活动前,SRE 团队提前数月便开始了紧张的筹备工作。他们深入分析系统架构,精准预测可能出现的流量峰值,对服务器进行了全面的性能优化与扩容,精心调整网络配置,确保数据传输的高效稳定。同时,他们还制定了详细且周全的应急预案,涵盖了从硬件故障到软件漏洞、从网络拥塞到数据丢失等各种可能出现的突发状况。在活动期间,SRE 团队成员 24 小时轮班值守,时刻紧盯系统的各项指标,如 CPU 使用率、内存占用、网络延迟等,如同警惕的卫士守护着系统的安全。然而,受到嘉奖的往往是在前台跳来跳去的那帮人,鲜有人想到SRE团队付出的一些,最多就是一句:感谢SRE团队的支持,你们辛苦了。
这不是在一个公司里的SRE面临的困窘,而是大多数公司里的SRE面临的共同问题,SRE的工作成果往往被视为基础设施的一部分,融入到了日常业务的顺利运行之中。当系统稳定时,人们很少会想起 SRE 团队的贡献,仿佛他们的工作是那么的微不足道。只有当系统出现故障,业务受到严重影响时,SRE 团队才会被推到台前,成为众人瞩目的焦点。但此时,往往伴随着指责与压力,而不是对他们平时工作的认可与感激。
那么,SRE 们该如何打破这种困境,提升自己在团队中的影响力呢?
我从影响力为何重要和怎么提升影响力两方面进行阐述。
一、影响力为何重要
为了要关注影响力?
因为人名和名人是不一样的。
首先,影响力大的员工在团队中更容易获得晋升机会。
其次,影响力大的员工更容易成为核心成员,获得更多展现的机会,也会让更多人看到你。
另外,影响力大的员工可以加快沟通速度,提升沟通效率。当 SRE 能够清晰地表达自己的观点和想法,并且能够倾听他人的意见时,团队成员之间的沟通障碍就会减少,协作效率也会得到显著提升。
最后,快乐会传染人,积极也会传染人。当团队成员看到某个SRE积极主动地解决问题,为团队的发展贡献力量时,他们也会受到感染,更加积极地投入到工作中。他可以通过分享自己的经验和知识,帮助团队成员提升技术能力,共同成长。
二、怎么提升影响力
1、提升技术实力,奠定影响基础
在 SRE 的工作领域中,技术实力是一切的根基,是在团队中发挥影响力的核心要素。技术的发展日新月异,软件系统的架构和规模不断演进,业务需求也日益复杂多样。SRE 只有不断提升自己的技术实力,才能在这个充满挑战的环境中立足,为团队的发展贡献更大的力量。
(一)持续学习新技术
在云计算、容器编排、自动化运维、AI等新技术不断涌现的当下,SRE 必须紧跟技术发展的步伐,不断学习新的知识和技能。以云计算为例,它的出现彻底改变了传统的 IT 基础设施架构,为企业带来了更高的灵活性、可扩展性和成本效益。SRE 需要掌握云计算平台的使用,如亚马逊的 AWS、微软的 Azure、谷歌的 GCP 以及国内的阿里云、腾讯云等,了解如何在这些平台上进行资源的配置、管理和优化。同时,容器编排技术如 Kubernetes,已经成为现代应用部署和管理的标准工具,它能够实现容器的自动化部署、扩展和管理,提高应用的可靠性和可维护性。SRE 需要深入学习 Kubernetes 的原理和使用方法,掌握如何在 Kubernetes 集群中部署和管理应用。
为了学习这些新技术,SRE 可以充分利用丰富的在线资源,如慕课网等平台上有大量的云计算和容器编排相关课程,涵盖从基础到高级的各个层次,SRE 可以根据自己的实际情况选择适合自己的课程进行学习。还可以关注技术社区,如 InfoQ、开源中国等,这些社区会及时发布最新的技术动态和行业趋势,SRE 可以在这里与同行交流学习心得,了解最新的技术发展方向。
(二)精准技术选型
在实际工作中,SRE 常常会面临各种技术选型的决策。这就好比在建造一座大厦时,需要选择合适的建筑材料和施工方法。正确的技术选型能够为业务的稳定运行提供坚实的保障,而错误的选择则可能导致系统的不稳定、性能低下甚至是安全隐患。
以某电商平台为例,在进行订单系统的技术升级时,SRE 团队面临着数据库选型的问题。他们需要在传统的关系型数据库和新兴的 NoSQL 数据库之间做出选择。经过深入的调研和分析,他们发现订单系统具有高并发、读写频繁的特点,对数据的实时性要求较高。传统的关系型数据库在处理高并发读写时可能会出现性能瓶颈,而 NoSQL 数据库如 MongoDB,具有出色的读写性能和可扩展性,能够很好地满足订单系统的需求。在这个过程中,需要 SRE 提出更优的选型方案。
再比如,在选择容器编排工具时,SRE 团队需要考虑业务的规模、复杂性以及团队的技术水平等因素。如果业务规模较小,应用场景相对简单,那么一些轻量级的容器编排工具如 Docker Compose 可能就能够满足需求;而如果业务规模较大,应用场景复杂,需要实现容器的自动化部署、扩展和管理,那么 Kubernetes 则是更好的选择。SRE 团队需要综合考虑各种因素,做出最适合业务需求的技术选型。
(三)高效解决技术难题
在系统的运行过程中,SRE 难免会遇到各种复杂的技术问题,如系统故障、性能瓶颈等。这些问题就像隐藏在黑暗中的敌人,随时可能对系统的稳定运行造成威胁。SRE 需要具备高效解决技术难题的能力,能够迅速定位问题的根源,并采取有效的措施进行解决。
以某互联网公司的一次系统故障为例,该公司的核心业务系统突然出现了大量的请求超时问题,导致用户无法正常使用服务。SRE 团队接到故障通知后,立即展开了紧张的排查工作。他们首先通过监控系统收集了系统的各项指标数据,如 CPU 使用率、内存占用、网络延迟等,发现 CPU 使用率异常升高。然后,他们进一步分析了系统的日志文件,发现是某个关键服务的代码出现了内存泄漏问题,导致该服务占用的内存不断增加,最终耗尽了系统资源,引发了请求超时。
找到了问题的根源后,SRE 团队迅速采取了措施。他们首先对出现问题的服务进行了紧急重启,暂时恢复了系统的正常运行。然后,他们组织开发团队对代码进行了全面的检查和修复,解决了内存泄漏问题。为了防止类似问题的再次发生,SRE 团队还对系统的监控指标进行了优化,增加了内存使用情况的实时监控和告警功能,以便能够及时发现和处理潜在的问题。
在解决这个技术难题的过程中,SRE 团队需要出色的技术能力和故障排查思路。他们通过对监控数据和日志文件的深入分析,迅速定位了问题的根源,并采取了有效的解决措施,成功地恢复了系统的正常运行,保障了业务的稳定开展。
一来二去,团队和个人的影响力就慢慢积累上去了。
2、加强沟通协作,拓展影响范围
在 SRE 的工作中,技术实力固然重要,但良好的沟通协作能力同样不可或缺。它就像一座桥梁,连接着 SRE 与团队成员、业务部门以及其他相关方,能够让 SRE 的工作更加顺畅地开展,同时也能提升 SRE 在团队中的影响力。
(一)主动与业务团队沟通
SRE 的工作不仅仅是关注技术层面的问题,更重要的是要理解业务需求,确保技术能够为业务的发展提供有力的支持。这就要求 SRE 主动与业务团队进行沟通,深入了解业务的目标、流程和痛点。
以某金融科技公司为例,SRE 团队主动与业务团队进行了多次沟通,了解到业务团队计划推出一款新的在线理财产品。这款产品预计会吸引大量的用户,对系统的稳定性和性能提出了极高的要求。SRE 团队根据业务团队的需求,提前对系统进行了全面的评估和优化。他们增加了服务器的配置,优化了数据库的架构,提高了系统的并发处理能力。同时,他们还制定了详细的应急预案,以应对可能出现的高并发访问和系统故障。在产品上线后,SRE 团队密切关注系统的运行情况,及时调整系统参数,确保了产品的稳定运行。通过这次主动沟通与协作,SRE 团队不仅成功地保障了业务的顺利开展,还赢得了业务团队的高度认可和信任。
在与业务团队沟通时,SRE 可以采用多种方式。定期召开业务沟通会议是一种非常有效的方式,在会议上,SRE 可以与业务团队分享系统的运行情况、技术发展趋势以及可能对业务产生影响的因素,同时也可以听取业务团队的需求和意见。还可以建立即时沟通渠道,如使用企业微信、钉钉等工具,方便业务团队随时向 SRE 咨询技术问题,SRE 也能够及时回应业务团队的需求。
(二)跨团队协作中的积极作用
在现代企业中,很多项目都需要多个团队的协同合作才能完成。SRE 作为保障系统稳定运行的关键角色,在跨团队协作中发挥着重要的作用。他们可以协调各方资源,解决技术难题,确保项目的顺利进行。
以某大型电商平台的一次促销活动为例,为了确保活动期间系统的稳定运行,SRE 团队与开发团队、测试团队、运维团队等多个团队紧密合作。在活动筹备阶段,SRE 团队与开发团队共同对系统进行了性能优化,对代码进行了优化和重构,减少了系统的资源消耗,提高了系统的响应速度。他们还与测试团队合作,进行了全面的压力测试和故障模拟测试,提前发现并解决了潜在的问题。在活动期间,SRE 团队负责监控系统的运行状态,及时发现并处理各种故障。当出现系统性能下降的情况时,SRE 团队迅速与运维团队沟通,协调增加服务器资源,确保了系统的稳定运行。同时,他们还与开发团队保持密切联系,及时调整系统的配置和参数,以应对不断变化的业务需求。
在跨团队协作中,SRE 还可以发挥协调者的角色。当不同团队之间出现意见分歧或沟通障碍时,SRE 可以凭借自己对技术和业务的深入理解,帮助各方达成共识。例如,在讨论系统架构的优化方案时,开发团队和运维团队可能会因为对技术实现和运维成本的考虑不同而产生分歧。SRE 可以通过分析各方的观点,结合系统的实际情况,提出一个既能满足业务需求,又能兼顾技术实现和运维成本的解决方案,促进项目的顺利进行。
(三)建立良好人际关系网络
良好的人际关系网络可以让 SRE 更好地了解公司的业务和组织架构,获取更多的信息和资源,同时也能够提高 SRE 的知名度和认可度。
SRE 可以通过组织技术交流活动来建立良好的人际关系网络。定期举办技术分享会,邀请公司内部的技术专家和业务骨干分享他们的经验和见解。在分享会上,SRE 可以介绍自己在系统稳定性保障方面的工作成果和技术经验,展示自己的专业能力。同时,也可以听取其他同事的分享,学习他们的先进经验和技术方法,拓宽自己的知识面和视野。通过这种技术交流活动,SRE 可以与不同部门的同事建立起良好的沟通和合作关系,增进彼此之间的了解和信任。
3、量化工作成果,凸显价值贡献
在 SRE 的工作中,量化工作成果是提升影响力的关键一环。它就像给工作成果贴上了清晰的标签,让团队成员和领导能够直观地了解 SRE 的工作价值和贡献。通过建立关键指标体系,定期汇报与展示工作成果,SRE 可以让自己的工作更加透明化,从而在团队中获得更多的认可和支持。
(一)建立关键指标体系
建立一套科学合理的关键指标体系,是量化 SRE 工作成果的基础。这些指标应该能够准确地反映 SRE 工作的核心价值,如系统的稳定性、性能和可靠性等。常见的关键指标包括系统可用性、故障恢复时间、错误率、吞吐量等。
系统可用性是衡量系统在一定时间内正常运行的比例,是 SRE 工作的重要指标之一。以某在线教育平台为例,该平台的课程直播服务对系统可用性要求极高。SRE 团队通过优化服务器架构、采用负载均衡技术、建立冗余备份等措施,将系统可用性提升到了 99.9% 以上。这意味着在一年的时间里,系统不可用的时间不超过 8.76 小时,为用户提供了稳定的学习环境。
故障恢复时间也是一个关键指标,它反映了 SRE 团队在系统出现故障时的响应速度和解决问题的能力。某电商平台在一次促销活动中,由于流量瞬间暴增,导致部分服务器出现故障,订单处理系统无法正常工作。SRE 团队迅速启动应急预案,通过自动化脚本快速切换到备用服务器,同时对故障服务器进行紧急修复。在短短 15 分钟内,系统就恢复了正常运行,将故障对业务的影响降到了最低。
错误率是指系统在运行过程中出现错误的比例,它可以反映系统的稳定性和可靠性。某社交网络平台通过对用户行为数据的实时监控和分析,发现用户登录功能的错误率在一段时间内出现了异常升高。SRE 团队通过深入排查,发现是由于部分用户的密码加密算法出现了漏洞,导致登录验证失败。他们迅速修复了漏洞,并对用户密码进行了重新加密,将错误率降低到了正常水平,保障了用户的正常登录和使用。
(二)定期汇报与展示
SRE 可以通过制作详细的报告、使用可视化工具等方式,将工作成果以直观、易懂的方式呈现出来。
在制作报告时,SRE 应该突出重点,简洁明了地阐述工作目标、工作内容、工作成果以及面临的挑战和解决方案。以季度汇报为例,SRE 可以在报告中详细介绍本季度内系统的可用性、故障恢复时间、错误率等关键指标的变化情况,分析指标变化的原因,并展示为提升系统稳定性和性能所采取的措施和取得的成果。还可以分享一些典型的故障案例,包括故障发生的原因、处理过程和从中吸取的教训,让团队成员和领导更加了解 SRE 工作的复杂性和重要性。
使用可视化工具可以让工作成果更加直观地展示出来。常见的可视化工具包括柱状图、折线图、饼图等,SRE 可以根据不同的指标和数据类型选择合适的可视化方式。例如,使用柱状图可以直观地比较不同时间段内系统的可用性;使用折线图可以清晰地展示故障恢复时间的变化趋势;使用饼图可以直观地展示不同类型错误的占比情况。通过这些可视化工具,团队成员和领导可以更加快速地理解数据背后的含义,从而对 SRE 的工作成果有更深刻的认识。
除了定期汇报和展示工作成果外,SRE 还可以积极参与团队会议和项目讨论,主动分享自己的工作经验和见解。在会议上,SRE 可以结合具体的项目案例,介绍如何通过优化系统架构、改进运维流程等方式提升系统的稳定性和性能,为团队提供有价值的参考和建议。
通过这种方式,不仅可以展示自己的专业能力,还可以与团队成员建立更紧密的合作关系,共同推动团队的发展。
4、传播知识经验,树立专家形象
通过内部技术分享、撰写技术文档与博客以及参与行业交流等方式,不仅能够将自己的专业知识传递给更多的人,还能在团队和行业中建立起良好的声誉和影响力。
(一)内部技术分享
组织内部技术分享会是 SRE 传播知识经验的有效方式之一。在分享会上,SRE 可以将自己在工作中积累的经验、掌握的新技术以及解决问题的思路和方法传授给团队成员。这种分享不仅能够提升团队整体的技术水平,还能让团队成员更加了解 SRE 的工作内容和价值。
在组织内部技术分享会时,SRE 可以采用多种形式,如讲座、案例分析、小组讨论等,以满足不同团队成员的学习需求。为了提高分享的效果,SRE 还可以提前准备详细的资料,如 PPT、文档等,并在分享过程中注重与团队成员的互动,鼓励他们提问和发表自己的看法。
(二)撰写技术文档与博客
技术文档可以记录 SRE 在工作中的技术方案、操作流程、故障处理经验等,为团队成员提供参考和指导。而博客则可以让 SRE 将自己的技术见解和经验分享给更广泛的受众,吸引同行的关注和交流。
在博客中,SRE 可以深入探讨一些技术难题的解决方案、新技术的应用实践以及对行业发展趋势的思考。通过博客,SRE 可以与更多的同行进行交流和互动,拓展自己的人脉资源,提升自己在行业中的知名度和影响力。
(三)参与行业交流
参与行业会议、开源社区等活动,是 SRE 拓展人脉、提升行业影响力的重要方式。在这些活动中,SRE 可以与来自不同公司和领域的专家学者进行交流和学习,了解行业的最新动态和技术发展趋势,同时也可以展示自己的技术实力和工作成果,提升自己在行业中的知名度和影响力。
在行业交流会上,可以在会议上聆听专家的主题演讲,参与技术研讨和交流活动,与同行们分享自己的经验和见解。在会议期间,还可以与其他参会者建立联系,拓展自己的人脉资源。
还可以积极参加一些开源社区的建设。在开源社区中,可以参与开源项目的开发和维护,贡献自己的代码和技术经验,与全球的开发者进行交流和合作。通过参与开源社区,SRE 可以提升自己的技术水平,拓展自己的人脉资源,同时也可以为开源社区的发展做出贡献,提升自己在行业中的知名度和影响力。
最后
SRE 作为保障系统稳定运行的关键力量,其价值不可估量。然而,要让这份价值被充分认知,SRE 需要主动出击,从技术、沟通、成果展示、知识传播等多个维度提升自身影响力。
提升技术实力是基石,持续学习新技术、精准选型、高效解决难题,让 SRE 在技术领域站稳脚跟,成为团队技术难题的 “救火队长”,赢得尊重。加强沟通协作则是桥梁,主动对接业务需求,在跨团队项目中发挥协调作用,构建良好人际关系网络,使 SRE 的工作与业务紧密融合,成为团队协作的润滑剂。量化工作成果,将系统可用性、故障恢复时间等关键指标清晰呈现,定期汇报展示,让工作价值一目了然,用数据说话,增强说服力。积极传播知识经验,通过内部分享、撰写博客、参与行业交流,树立专家形象,拓展影响力边界,让 SRE 的声音在行业中被听见。