【编者按】 51CTO 2014 WOT全球软件技术峰会将在2014年7月25-26日在北京富力万丽酒店召开。从本周开始,我们将陆续公布会议内容,并针对即将参会的架构师访谈,以便大家进一步了解会议内容。会议详细议程见: http://wot.51cto.com/2014/。
本次访谈的对象是刘宇。他目前就职于金山西山居游戏。近十年的运维经验。从网管到架构师,每一次的历练都是全新的挑战。在本次的WOT软件技术峰会中,刘宇老师将在“自动化运维”这个专场给大家做分享,关注自动化运维的同学们有耳福咯!敬请期待!
【讲师简历】
刘宇,金山*西山居架构师,曾任职于新浪、百度,担任高级系统工程。《Puppet实战作者》,InfoQ社区编辑,自动化运维专家。近10年运维工作经验,精通分布式自动化管理平台、分布式监控平台、云平台;对视频点播、直播架构、文件加速、调度系统和数据分析都有非常深入的研究,实践经验极为丰富。同时致力于技术分享,多次并不断分享自己的经验,http://linuxtone.org联合创始人,曾被评为infoq金牌讲师和51cto博客之星。
刘宇 (@守住每一天)
以下是对刘宇老师的访谈实录:
记者:以您这么多年的运维经验来看,如何才能做到在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围?
刘宇:我个人认为,对自己运维的系统都要做到熟记于心。当然不是所有系统你都能全部记住,但是系统的核心必须熟记,现在很多系统管理员,都过份依赖笔记和电脑,而忘记了人的大脑就是***的计算机。只需要我们更加用心,服务链复杂也好,系统再庞大也好,都能做到得心应手,在发生故障时不必惊慌。以下几点是我认为很有必要做到的:
- 各个系统做好高可用,每一个环节都需要考虑预案;
- 监控一切可以监控的信息,不要放过任何一个小的监控;
- 遇到故障时,需要有一颗庞大的内心,尽快解决问题;解决问题后要善于总结;
- 熟记系统核心关键点后,快速思考影响及故障级别,做到良好反馈与排查;
- 如有条件,开发一个关联关系系统。
如果做到这些,在遇到故障时,可以快速定位,更高效地处理解决问题。
记者:在自动化运维工具的选择上,您是怎么考虑的?目前您接触过的自动化运维工具有哪些?
刘宇:首先,我并不是一个工具控,在开源产品的了解层面上,我还比较欠缺,我的好友@ARGV在这方面了解比我广泛。我个人比较推荐将一款工具运用到***,根据产品及公司的应用场景进行系统的对比,选择适合自己的工具,然后深入研究并使用,与业务完整的结合。所以说别人使用的工具,并不是一定适合你自己。
我所熟悉的自动化运维工具不多,但都是大家熟悉的:
- 持续集成:Jenkins
- 命令执行:Ansible,Salt,Func,Pssh等
- 配置管理:Puppet ,Chef等
- 监控:Nagios ,Zabbix等
记者:在自动化运维部署的过程中,有哪些需要注意的事项?可以从规划、建设、管理、监控这些环节中说明。
刘宇:其实做自动化运维最难的是规范,从无到有是一个漫长的过程,这需要多个部门长时间的沟通与磨合。然而需要执行下去的时候就需要有一个良好的流程及规范来约束,往往不成功的地方都在这里,诸多原因吧。因此我建议可以按以下步骤进行尝试:
- 从内部开始,慢慢试用,再尝试推广;
- 先定好规范,再谈建设;
- 技术能解决的问题不要采用非技术手段。
从工具做起,慢慢发展为平台。过程为:工具->系统->平台。
记者:自动化运维是一个大命题,很多人认为规模比较小的企业无需做自动化运维部署,您是怎么看待这个问题的?
刘宇:以前也有朋友问过这个问题,我的建议是做。先不从公司层面考虑这个问题,运维人员是可以从中学到很多知识,了解熟悉工具,从流程及系统层面知道自动化运维。这也是一个突破。有一些人觉得没有必要,规模达不到这个要求,但你可以参考自动化运维的思想自己来实现一套自有的系统,不是很cool么?你可以将所有机器的管理全部web化,这样工作起来不是更轻松?
记者:就您个人而言,您目前最关注的技术是什么?您自己是如何学习并掌握新技术的?
刘宇:我目前比较关注的是自动化运维和云计算,以及一些实用的小技巧与技术。每个人每个阶段都需要去学习不同层面的东西,这些都是因人而异的。
对于新技术的学习成本的确很高,特别是现在互联网信息泛滥,信息过于膨胀了,各种工具,各种系统。我所做的事情主要有三件:
***件就是过滤,第二件就是实践,第三件就是总结。
- 对当前有用的,加入todolist;
- 对当前没用的,以后可能会用上的,收藏;
- 收藏一个月也没有看过的,删除;
- 实践过觉得还不错的,加入总结list;
- 自己写个总结文档。
这些是我自己平时的一些方法和经验,虽然看起来不起眼,但是长期积累后,会有很大的收获。(全文完)
阿里、百度、京东、淘宝、谷歌、Facebook、Tesla都到2014 WOT全球软件技术峰会了,你还等什么?这些***的公司将***对外公开技术,涵盖八大主题,共有40+课程,部署实施、运维开发、大数据、Spark、敏捷开发一个都不少。除了***手的经验之外,还有未来两三年的技术趋势,你会让自己错过这样的技术大会吗?