运维的核心能力有哪些?
运维,在部分没有接触过IT的小伙伴的概念中觉得是一个比较低级的职位,很容易从字面理解为运营、维护、很多朋友认为,无论IDC机房运维、网络运维、桌面运维、Linux系统运维、数据库运维、云计算运维、等在互联网公司中的工作就是安装系统,部署服务、处理紧急故障,为公司开发人员及其它部门提供支持。同时负责内外网的网络稳定。上面描述的工作的确是运维的一部分工作,但并不是全部,或者说是中小公司低级的运维劳动,并不能诠释运维的核心能力。
1 运维人员必须具备运维思想
在我看来,除了上面的角色外,运维人员还是管理、制度、规范、流程的制定和推行、监督角色。运维的核心是运维思想,非运维技术本身(如部署服务等,这是部分朋友的误区)。上百台以上的服务器的规模如果没有好的管理流程、规范、制度策略,是无法协调工作的,上千台、上万台更是如此。运维流程、运维规范、运维制度、自动化、智能化、批量部署、批量管理、网站架构优化、监控预警、流量及日志分析统计、成本控制(注意字眼是控制,不是节省)才是真正的运维人员需要做的。
如何推进并完善上面的工作,提升工作效率,提升团队以一当十的战斗力才是最核心的内容。运维的宗旨:保护数据安全、7*24小时网络稳定、用户体验良好(用户包括内部的员工、外部的网站用户)所以,我们做什么都不要离开运维的宗旨,否则,你的工作都可能是徒劳的无用功(起码和目标没直接对接)。有经验的运维人员会先思考在动作,经验不足的运维人员会先做,遇到问题在思考,这是完全不同的层次和境界。试想盖一座大楼如果先盖好在思考,那还能盖好么?所以,请别轻易说你精通什么什么服务,会多少多少软件,那只是几块砖头、几袋水泥、几根钢筋而已。盖好大楼,这些仅仅是基本的元素,运维同样是如此!
2 运维人员必须对即将面对威胁要特别清楚
专家研究和大量企业实践表明,IT项目生命周期中,大约80%的时间与IT项目运营维护有关,而该阶段的投资仅占整个IT投资的20%,形成了典型的“轻服务、重技术”现象。国际著名咨询调查机构Gartner集团的调查发现,在经常出现的问题中,源自技术或产品(包括硬件、软件、网络、电力失常及天灾等)方面的问题其实只占20%,而流程失误问题占40%,人员疏失问题占40%。流程失误包括未做好变更管理、超载、无测试等程序上的错误或不完整,人员疏失包括忘做某些事情、训练不足、备份错误或安全疏忽等。 面对如此高的要求和压力,IT部门就需要有一套完善的并可管理的IT服务流程,对IT运维进行有效地管理、使信息系统更加适应业务持续变化的需求、使IT部门从成本中心转变为利润中心。当现代企业建立完善而成熟的IT运维管理体制后,通过流程管理,不断提高IT运维质量,实现高效运维,提升组织内IT服务满意度。
我们的IT运维要如何保障
服务支持 事故管理 :有效解决冲突事件,尽快恢复IT服务 问题管理 :找寻问题的根源和解决方案,消除或减少问题事件的发生 配置管理 :管理更改的实施过程,避免或者减少变更的影响变更管理 :控制IT系统的软件的发布过程及版本发布管理 :管理IT系统的所有元素及相关信息,描述IT元素之间的相互关系
服务交付
服务级别管理:提供与服务级别对等的服务内容完成量化服务器管理
可用性管理:监控IT重要资源和运行指标,保障整个业务系统的可用性
能力管理:监控和提高系统性能行进性能规划
持续性管理:简历业务持续计划,实现业务可持续化运行
财务管理:IT服务的预算管理,成本管理
3 运维人员必须具备故障管理及库管理的能力
故障管理:
故障管理,通过系统预定义好的故障情况,准确定位故障的级别,并通过多样的告警方法将故障信息派发给直接负责人员,避免故障的无法及时处理和是否升级的判定。
故障管理通过设定故障规则,能够为一个设备设定多个报警规则或多个设备统一为一个事件报警规则,为每个事件规则设定相关的级别,由系统来确定故障级别和通知对象,并自动触发相关的工单给相关人员。故障信息可以通过声音、告警灯、短信、邮件、脚本等形式告知故障处理负责人。配置管理提供系统配置功能,包括报警配置、事件配置、视图配置、用户权限、监测配置等供配置控制模块调用。IT部门可以通过此模块简单的进行配置控制,对配置信息进行变更,对系统设置进行管理。
问题库管理
提供问题库的管理,管理人员可以把在运维过程中遇到的无法解决的问题录入到知识库中,让系统对相关的问题进行分配,让对应职位的人员进行处理。同时提出人还可以对问题进行跟踪,这样就不会让提出的问题石沉大海。
知识库管理
用来记录系统故障情况及维修记录的;- 用来帮助管理员排查系统故障的工具;- 用来给管理员提供问题的处理办法的;- 用来给管理员提供运维经验。
预案库管理
提供预案库管理,管理人员可以让对相关事件有过处理经验的人员就相关的情况编写一份处理预案,当不熟悉这个事件处理流程的人员进行处理时有据可以。同时极大的缩短了人员培训的时间,也帮企业节约了成本
4 运维人员必须具过硬的专业技能
运维人员保护数据安全、7*24小时网络稳定、用户体验良好(用户包括内部的员工、外部的网站用户),必须具备以下技能!
1、扎实的Linux操作系统和网络基础知识;
2、熟悉阿里云、腾讯云等云厂商产品知识,例如ECS、RDS、VPC等;
3:精通一门以上脚本语言(shell/python/go等其中一种);
4:至少熟悉一种开源监控系统(zabbix、prometheus、open-falcon等),对监控优化有深入理解;
5、熟悉CI/CD持续集成与持续交付,熟悉Gitlab、Jenkins、Ansible、Grafana等工具使用;
6:熟悉Nginx、Tomcat、MySQL、Redis、MongoDB、MQ、ELK等的日常维护与优化,且熟练操作Mysql、Mongodb、Redis;
7、熟悉Docker容器技术,对docker的网络、存储、安全有良好的理解;
8、熟悉Kubernetes部署、了解微服务架构更佳;优化具备良好的自我驱动和主动思考习惯
9、要是掌握自动化运维工具的开发前途不可限量