WOT架构师系列访谈(3)——金山西山居架构师刘宇

原创
新闻
51CTO 2014 WOT全球软件技术峰会将在2014年7月25-26日在北京富力万丽酒店召开。我们将陆续公布会议内容,并针对即将参会的架构师访谈,以便大家进一步了解会议内容。本次访谈的对象是刘宇。他目前就职于金山西山居游戏。近十年的运维经验,关注自动化运维的同学们千万不要错过。

【编者按】 51CTO 2014 WOT全球软件技术峰会将在2014年7月25-26日在北京富力万丽酒店召开。从本周开始,我们将陆续公布会议内容,并针对即将参会的架构师访谈,以便大家进一步了解会议内容。会议详细议程见: http://wot.51cto.com/2014/

本次访谈的对象是刘宇。他目前就职于金山西山居游戏。近十年的运维经验。从网管到架构师,每一次的历练都是全新的挑战。在本次的WOT软件技术峰会中,刘宇老师将在“自动化运维”这个专场给大家做分享,关注自动化运维的同学们有耳福咯!敬请期待!

【讲师简历】

刘宇,金山*西山居架构师,曾任职于新浪、百度,担任高级系统工程。《Puppet实战作者》,InfoQ社区编辑,自动化运维专家。近10年运维工作经验,精通分布式自动化管理平台、分布式监控平台、云平台;对视频点播、直播架构、文件加速、调度系统和数据分析都有非常深入的研究,实践经验极为丰富。同时致力于技术分享,多次并不断分享自己的经验,http://linuxtone.org联合创始人,曾被评为infoq金牌讲师和51cto博客之星。

刘宇  (@守住每一天

以下是对刘宇老师的访谈实录:


记者:以您这么多年的运维经验来看,如何才能做到在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围?

刘宇:我个人认为,对自己运维的系统都要做到熟记于心。当然不是所有系统你都能全部记住,但是系统的核心必须熟记,现在很多系统管理员,都过份依赖笔记和电脑,而忘记了人的大脑就是***的计算机。只需要我们更加用心,服务链复杂也好,系统再庞大也好,都能做到得心应手,在发生故障时不必惊慌。以下几点是我认为很有必要做到的:

  1. 各个系统做好高可用,每一个环节都需要考虑预案;
  2. 监控一切可以监控的信息,不要放过任何一个小的监控;
  3. 遇到故障时,需要有一颗庞大的内心,尽快解决问题;解决问题后要善于总结;
  4. 熟记系统核心关键点后,快速思考影响及故障级别,做到良好反馈与排查;
  5. 如有条件,开发一个关联关系系统。

如果做到这些,在遇到故障时,可以快速定位,更高效地处理解决问题。

记者:在自动化运维工具的选择上,您是怎么考虑的?目前您接触过的自动化运维工具有哪些?

刘宇:首先,我并不是一个工具控,在开源产品的了解层面上,我还比较欠缺,我的好友@ARGV在这方面了解比我广泛。我个人比较推荐将一款工具运用到***,根据产品及公司的应用场景进行系统的对比,选择适合自己的工具,然后深入研究并使用,与业务完整的结合。所以说别人使用的工具,并不是一定适合你自己。

我所熟悉的自动化运维工具不多,但都是大家熟悉的:

  • 持续集成:Jenkins
  • 命令执行:Ansible,Salt,Func,Pssh等
  • 配置管理:Puppet ,Chef等
  • 监控:Nagios ,Zabbix等

记者:在自动化运维部署的过程中,有哪些需要注意的事项?可以从规划、建设、管理、监控这些环节中说明。

刘宇:其实做自动化运维最难的是规范,从无到有是一个漫长的过程,这需要多个部门长时间的沟通与磨合。然而需要执行下去的时候就需要有一个良好的流程及规范来约束,往往不成功的地方都在这里,诸多原因吧。因此我建议可以按以下步骤进行尝试:

  • 从内部开始,慢慢试用,再尝试推广;
  • 先定好规范,再谈建设;
  • 技术能解决的问题不要采用非技术手段。

从工具做起,慢慢发展为平台。过程为:工具->系统->平台

记者:自动化运维是一个大命题,很多人认为规模比较小的企业无需做自动化运维部署,您是怎么看待这个问题的?

刘宇:以前也有朋友问过这个问题,我的建议是做。先不从公司层面考虑这个问题,运维人员是可以从中学到很多知识,了解熟悉工具,从流程及系统层面知道自动化运维。这也是一个突破。有一些人觉得没有必要,规模达不到这个要求,但你可以参考自动化运维的思想自己来实现一套自有的系统,不是很cool么?你可以将所有机器的管理全部web化,这样工作起来不是更轻松?

记者:就您个人而言,您目前最关注的技术是什么?您自己是如何学习并掌握新技术的?

刘宇:我目前比较关注的是自动化运维和云计算,以及一些实用的小技巧与技术。每个人每个阶段都需要去学习不同层面的东西,这些都是因人而异的。

对于新技术的学习成本的确很高,特别是现在互联网信息泛滥,信息过于膨胀了,各种工具,各种系统。我所做的事情主要有三件:

***件就是过滤,第二件就是实践,第三件就是总结。

  • 对当前有用的,加入todolist;
  • 对当前没用的,以后可能会用上的,收藏;
  • 收藏一个月也没有看过的,删除;
  • 实践过觉得还不错的,加入总结list;
  • 自己写个总结文档。

这些是我自己平时的一些方法和经验,虽然看起来不起眼,但是长期积累后,会有很大的收获。(全文完)

阿里、百度、京东、淘宝、谷歌、Facebook、Tesla都到2014 WOT全球软件技术峰会了,你还等什么?这些***的公司将***对外公开技术,涵盖八大主题共有40+课程,部署实施、运维开发、大数据、Spark、敏捷开发一个都不少。除了***手的经验之外,还有未来两三年的技术趋势,你会让自己错过这样的技术大会吗?

责任编辑:黄丹 来源: 51CTO
相关推荐

2014-07-26 14:27:31

运维Puppet

2015-08-11 09:32:53

面试微信网易

2014-05-29 09:41:19

方少森WOT架构师WOT2014

2014-06-06 17:01:34

杨光WOT架构师WOT2014

2014-05-13 23:24:18

WOT技术峰会袁斌WOT2014

2014-05-28 16:32:08

WOT架构师WOT2014

2014-05-16 10:13:34

WOT架构师WOT2014朱金清

2014-06-05 13:27:13

孔德亮WOT架构师WOT2014

2014-05-29 10:05:34

wot架构师王川WOT2014

2013-11-05 15:26:55

天云趋势云计算

2014-05-26 09:22:02

WOT技术峰会杨立东WOT2014

2009-12-18 10:22:50

Ray Ozzie架构师

2020-08-24 08:50:12

架构师TL技术

2015-10-10 17:43:01

360刘鹏大数据

2018-07-03 15:46:24

Java架构师源码

2011-12-23 15:56:02

2012-08-04 16:02:00

架构师

2012-11-01 15:08:10

IBM资深架构师

2013-04-19 15:12:17

架构师WEB架构师

2011-04-07 16:20:24

软件架构师架构师架构
点赞
收藏

51CTO技术栈公众号