搜狐运维总监黎志刚:畅游运维自动化探索之旅

原创
云计算 系统运维 CIOAge 自动化
云计算的出现抹杀掉了一切基础性工作,这使运维行业感受到了前所未有的冲击、威胁和变化。“智能运维、数字运维、No-Ops…”,一时间,各种创新运维模式不断涌现。这些是否只是概念?

【51CTO记者 谢海平 北京报道】云计算的出现抹杀掉了一切基础性工作,这使运维行业感受到了前所未有的冲击、威胁和变化。“智能运维、数字运维、No-Ops…”,一时间,各种创新运维模式不断涌现。这些是否只是概念? 

黎志刚,本次WOTA2017全球架构与运维峰会分享嘉宾。搜狐畅游系统运维中心总监,游戏行业近十年技术管理经验。2008年加入畅游天下,现任系统运维中心总监及项目管理部经理、打造百万用户在线游戏技术运维平台。 近年来,致力于建设一流的游戏技术团队,负责全面管理运维工作,包括IDC/网络/硬件规划管理、系统运维、数据库运维、应用运维、运维平台与工具开发等;建立和完善规范化的运维体系,保障运维质量;不断研发与探索运维自动化及各类创新途径,缩短运维响应时间,减低运维成本。

51CTO:在打造自动化运维平台上,您遇到哪些挑战?后来是如何解决的?

黎志刚:挑战主要有四个:

第一,人员。2011年接触团队的时候,核心人员流失严重,技术人员大都是专业度不高的基础技术人员,需要花费大量的精力去招聘人员。在打造自动化运维平台的过程中,经历过两、三次这样的情况,后面主要是对技术和平台要求有所提升,而现有人员的能力出现了瓶颈,所以我们需要去迭代、更换一部分能力高的技术人提供新的思路,从而打破瓶颈。

第二,运维模式。以前的运维模式会把自己当成服务者,或者支持者,但是,我们发现服务者、支持者做到后面就没有更多的价值和产出。而随着新兴技术的兴起,运维人员逐渐从幕后走向幕前,运维模式从以前被动等待需求,转变为主动出击去了解所有的业务需求,乃至于把控现有业务,然后部署自动化运维平台架构。

第三,思维模式。从以前技术角度的思维模式,转变为更开放的产品模式。以前,我们做的东西更倾向于工具,平台化的东西很少,而现在的运维人员更多的是从产品角度思考,做的工具和相关的平台也是用产品模式来做,恰恰思维模式的转变,运维的价值才真正体现出来。

第四,沟通。以前我们很少和外界交流、沟通,大会也好或者同行之间交流也罢,通常不会特别多。但是,从2014年我们逐渐和相关的行业,包括腾讯、百度、阿里在内的互联网企业进行大量交流,从而是找出畅游与他们存在的差距,另外,也让团队看到畅游提升的空间。人在公司呆久了会疲惫,同时又因为缺少与外界的交流,他会认为自己的系统是非常顶尖的,但实际上并非如此。

51CTO:目前DevOps是一个非常火的名词,你对此是如何理解的?畅游又是如何实践DevOps?

DevOps(英文Development和Operations的组合)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

DevOps是为了填补开发端和运维端之间的信息鸿沟,改善团队之间的协作关系。

黎志刚:畅游打造的DevOps是运维和游戏研发的实时交付,这部分我们当时如何考虑的呢?早期,研发部门提供文件或者游戏的服务端版本给运维的时间通常是凌晨或者半夜,而且提供版本的状态是非常少的,这种情况导致运维只能被动等待,因此,运维常常工作到半夜。为了改变运维的现状,我们希望构建一个从研发阶段到版本的制作、打包、发布以及版本最终的部署,面向用户整个环节全部打通的平台。在设计平台的时候,我们优先解决的是版本发布的自动化,因为版本发布集成了代码上传、打包,测试等等,这个环节如果做不到自动化,后续的工作是无法进行的。

51CTO:对于企业各异构系统之间的一些通信、数据交互这些方面,畅游主要面临哪些问题和挑战呢?

[[188819]]

1.系统交互接口不统一
2.全球同服
3.数据一致性
黎志刚:主要问题是所有系统之间交互的接口不统一。因此,我们要做一个数据总线,把所有数据的输入和输出全部做成标准化。网络层面全国要能做到互联互通是很难的,所以我们做了一个VPN隧道进行内网互通。

网络架构上面临的主要问题是全球同服。很多移动游戏都会做全球同服的概念,对于我们来说,不管是自动化系统,还是游戏服务器都得做全球同服。中国的玩家和外国的玩家要同时在一台服务器上,这对网络、系统要求非常大。

所以我们目前在做的方式是逐级加速,即有可能全球同服的服务器在香港,但是,如果我判定用户来自美国,我不会让他直接访问香港,而是让他先访问他最近的区域,然后通过不同的区域逐级再跳到香港的服务器。然后我们在每一级上做一个加速,把用户延迟问题解决掉,这样就可以实现全球同服了。

数据交互上的问题是数据一致性,全球同服要求所有玩家的内容都必须相同,这会导致数据交互量非常大,如果所有数据都进行批量化传输,系统很难支撑。

为了解决这个问题,我们对所有交互的信息做了切割,哪些信息是必须同步的就进行同步,哪些信息可以异步就异步,例如玩家延迟很长时间也没关系的思维数据。实时同步的数据尽可能压缩到内网传输可控以及外网VPN传输可控的一个包大小就足以应对。

51CTO:那您认为云计算会给企业当前异构系统的维管理带来哪些弊端?

黎志刚:坏处是成本核算和系统复杂度越来越高。第一,成本核算难度增加。如果物理机、公有云、私有云都使用,成本核算难度非常大;第二,系统复杂度增加。以前的所有平台和系统只需对接一套系统,如果引入了公有云,意味公有云的管理也得接入平台,这样会导致自动化平台和整个架构的复杂度增加。

51CTO:您认为云计算会不会成为解决企业本地异构性集成未来的一个可行路径?

黎志刚:我认为云计算会是解决本地异构的可行路径。比如畅游有的游戏系统用的是Windows,如果聘用大量Windows工程师,对企业来说成本很高,从长远来看也没有必要。因为公有云提供的服务十分丰富,畅游使用的阿里云的SQL Server,腾讯云则使用的如Windows操作系统,或者特殊的机器和一些技术的服务。云的便利性很强,在提高冗余性、效率等,维护的成本都可以得到控制,这样不但可以节省大量成本,还可以大幅度减少等待的时间。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:吴金泽 来源: 51CTO
相关推荐

2017-07-25 10:53:27

2014-08-04 10:10:35

IT运维自动化运维

2012-10-22 14:54:48

2017-10-13 13:14:35

互联网

2015-08-05 09:53:34

运维自动化

2018-06-23 07:31:05

2018-07-26 13:50:37

IT架构运维

2014-09-22 11:24:18

运维

2013-04-16 14:55:21

自动化运维Puppet实战

2020-07-21 15:53:18

戴尔

2012-11-20 17:22:57

2015-10-08 10:55:23

云服务自动化运维 ANSIBLE

2019-08-27 08:55:05

2015-06-24 10:42:19

云计算运维自动化运维ANSIBLE

2020-04-30 15:00:17

运维Ansible自动化

2010-08-12 17:39:07

网站运维自动化管理

2012-05-05 21:48:43

puppet自动化运维

2012-05-05 21:22:40

2014-06-20 18:26:45

WOT2014自动化运维

2012-05-05 22:27:46

puppet自动化运维
点赞
收藏

51CTO技术栈公众号