【2014WOT深圳站讲师专访】肖力:大数据时代的系统运维

原创
运维 系统运维
WOT是由51CTO传媒主办的国内最具有影响的技术峰会,自2012年以来,秉承专注技术、服务技术人员的理念,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要的技术分享交流平台以及人脉拓展平台。

2014年11月21日至22日,51CTO传媒主办的2014WOT全球软件技术峰会·深圳站将在深圳召开,技术人员和企业实践用户将齐聚深圳。

WOT是由51CTO传媒主办的国内***有影响的技术峰会,自2012年以来,秉承专注技术、服务技术人员的理念,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要的技术分享交流平台以及人脉拓展平台。

本次2014 WOT·深圳站将邀请国内外***的互联网及创新企业技术负责人,***对外公开其当下最in技术,分享涵盖六大主题,共有30+课程,移动游戏运营、运维开发、Web安全、数据挖掘、团队管理等以及未来两三年的技术趋势。点击报名》》


本次采访对象是本次2014WOT深圳站<自动化运维>论坛的演讲人肖力,目前任职金山西山居/系统运维经理

1、您目前在贵公司负责哪些事情?能否先简单谈谈您在运维领域的从业经验,和您对此运维的理解?

我目前在珠海金山西山居,以前在上海盛大游戏。我负责系统及服务器层面的运维工作,主要运维方向是游戏虚拟化,有近15年的工作经验,最近5年一直在做游戏虚拟化运维。

2010年的时候,虚拟化在互联网业内还鲜有使用,我们已经开始在生产环境中使用KVM虚拟化技术的探索。通过实施虚拟化,我们几年内节省了上亿的运营成本,帮助多个处于生命周期末的游戏项目实现扭亏为盈。当时KVM还是一个小众产品,国内文档较少,我们只能通过钻研国外的英文资料甚至阅读源代码来学习。Red Hat是KVM的重要支持者,因此与其公司的RHEL系统同源的centos成为了研究KVM的重要资料。从当时刚发布的centos5.5开始,我们一路追随centos系统的升级,每有一个版本发布,我们都要测试评估新的KVM虚拟化特性,然后逐步在生产环境部署,这样的工作方法一直到持续到***的centos6.6及centos7。

所有我对运维的理解就是一个学习、测试、生产环境使用,这样一个不断循环和实践的过程,回过头来看,这样的运维方法与虚拟化技术这些年的快速发展非常贴合,也促进了新的虚拟化技术在我们生产环境不断的被使用,解决了我们不少性能和稳定性问题。

2、能否讲讲这么多年运维工作的变化与演进?

我讲讲游戏虚拟化运维的变化和演进吧,可以分为4个阶段:

***阶段主要是解决稳定性问题,游戏行业稳定性尤其重要,因为稳定性和游戏收入是直接挂钩的,我们一开始部署虚拟化的时候,碰到很多问题,比如网络闪断,虚拟机动态迁移后,能ping通,但是tcp协议不能正常访问等,我们花了很大的时间精力解决这些问题;

第二阶段主要是解决虚拟机的快速生成问题,稳定性解决之后,我们面临的问题就是如何更快的得到虚拟机,于是搞了一套脚本,通过命令行,可以很快的完成宿主机的配置和虚拟机的生成;

第三个阶段主要是解决和业务结合的问题,业务希望虚拟机开起来后,游戏程序也尽快的能运行起来,我们又把游戏程序根据业务的不同,在虚拟机生成的时候,塞到虚拟机里面,大大缩短了游戏的开服时间;

第四个阶段是解决管理平台的问题,主要是进一步的提高运维水平,有了前面三步,管理平台是水到渠成的事情,当时openstack刚起步,概念非常好,但是稳定性比较差,我们参照openstack的概念,自己开发了一套非常切合我们需要的管理平台。

3、随着如今大数据的爆发,这给运维工作带来了怎样的冲击与改变?

大数据的对游戏行业影响非常大,通过大数据,我们可以更细致的了解玩家的需求和痛点,更好的为玩家服务。我了解的情况是,游戏公司一般现在都有游戏数据分析的部门,会做非常详细的大数据分析,现在早已经不是要不要搞大数据的阶段,而是大家在竞争,如何可以把大数据分析做的更好、更细致的阶段。

4、贵公司在监控上用了哪些技术?使用开源的还是自主研发?

我们在监控上走的是开源和自主研发相结合的路线,底层主要使用zabbix,按照我们的需要做了非常多的定制,我和其他公司交流的时候,发现也有许多公司是这样做的,总的来看,zabbix非常灵活,方便定制,能够满足我们的需求。

5、您认为目前国内的自动化平台以及数据可视化平台建设如何?还需要加强哪方面发展?

自动化平台建设在游戏行业,就是要做到一键开服,要求运维平台在后台打通个个环节,实现在前台通过简单的鼠标操作,可以完成游戏的更新和开服。这个说起来容易,做起来非常困难,需要基础平台的支持,也需要对自己的业务理解非常透彻。

我和欧美、韩国、日本游戏公司有过多次交流,有些游戏公司在自动化平台建设方面达到很高的水平,三年前,我们代理的一款游戏,使用对方公司的运维系统,服务器使用刀片服务器,可以做到服务器故障的时候,将替换的刀片服务器推进去,然后就会自动部署系统和游戏程序,不需要再做其他操作,我印象非常深刻。

我认为自动化平台以及数据可视化平台就是一个不断的运维技术标准化的过程,先是技术有发展,然后制定标准和流程,然后才有平台,平台是对技术和流程的一个固化和积累,从这个角度讲,平台建设也是一个动态不断发展的过程。

6、您认为一名合格的运维工程师是如何定义的?需要具备哪些因素?

就游戏行业来说,运维工程师的职责,我认为可以分为4点:

***,保持业务的可用性,我们公司的指标是可用性达到99.95%,就是一年下来计划外停机时间不超过5个小时;

第二,保存业务的稳定性,就是两次故障的间隔时间尽量长,充分保证玩家的游戏体验;

第三,快速的部署和响应,一款游戏,少则几十个区组,多则几百个,通常维护时间只有一两个小时,对我们的自动化运维水平要求非常高;

第四,也是最重要的一点,就是通过技术手段节省运维成本,通常一个游戏项目开始的时候,人数是一直在增加的,那么消耗的运维成本也会增加,运维有一个职责,就是保持运维成本增长曲线效率低于人数增长曲线斜率,斜率越低,说明我们节约运维成本的工作做的越好。

运维工程师的素质,我觉得有两条,***是对生产环境要有敬畏之心,一个小的失误,可能影响到几千甚至上万玩家的游戏体验,容不得我们出错,这点是一些血的教训换来的;第二,要不断学习,提高自己,就拿虚拟化网络技术来说,像openvswitch、sriov、万兆网卡,这样的技术出现和发展很快,只有不断的学习才能紧紧跟上技术发展的步伐。

责任编辑:chenqingxiang 来源: 51CTO
相关推荐

2014-10-28 10:30:38

程序员

2014-11-03 13:24:31

2014WOT运维

2014-10-24 13:27:58

2014WOT深圳手游

2014-10-24 10:38:48

2014WOT深圳手游

2014-10-29 10:49:36

2014WOT运维

2014-10-20 14:06:47

2014WOT深圳手游

2014-10-24 13:48:05

2014WOT深圳手游

2014-11-04 15:15:12

2014WOT运维

2014-10-20 12:44:31

2014WOT深圳腾讯

2014-11-04 17:29:58

2014WOT运维

2015-10-27 09:52:03

51CTO

2014-11-24 20:47:18

2014WOT

2014-08-26 13:24:08

2014WOT移动游戏开发

2014-11-14 19:06:50

2014-10-27 10:51:39

2014WOT深圳手游

2015-11-11 09:49:27

wot舒服分析

2015-11-24 10:22:08

wot360

2015-10-20 15:06:42

WOT程序员创业

2015-11-23 11:31:47

wot大数据运营

2015-10-14 18:06:47

大数据测试团队运维
点赞
收藏

51CTO技术栈公众号