腾讯赵建春:大规模海量服务高效运维实践

原创
开发 架构
2016年4月14-15日,由51CTO传媒主办的WOT2016互联网运维与开发者大会在北京珠三角JW万豪酒店召开。秉承专注技术、服务技术 人员的理念,自2012年以来,WOT品牌大会已经成功举办九届,积累了大量的技术专家资源,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要的技术分享交流平台以及人脉拓展平台。

云计算经过几年的飞速发展,已经成为IT领域未来重要的趋势之一。云时代IT领域各种问题,都在逐渐通过整个行业的智慧形成统一的解决方案。也正因如此,唱衰运维的调调一直不绝于耳。当代表运维价值的苦力活被程序代替,甚至比人做得更好时,运维人员该去向何方?

在WOT2016 互联网运维与开发者大会现场,51CTO记者独家专访腾讯社交网络运营部助理总经理、技术运营通道会长赵建春。作为一个有着十年经验的运维老兵,在他眼里运维的分工和理念有哪些变化?如何实现云时代的高效运维?企业未来还是否需要专业的运维管理团队呢?

嘉宾简介

[[165297]]

赵建春,腾讯社交网络运营部助理总经理、技术运营通道会长、专家工程师。04年加入腾讯,先后从事过研发、运维、数据方面的建设和管理工作,在海量技术运营方面积累了丰富的实战经验。

腾讯社区网络运维团队主要负责以QQ延伸出来的各种社群的运维和维护,包括QQ空间、QQ音乐、QQ会员、QQ秀等一系列的QQ产品。整个团队成员不到90人,却维护着将近10万台服务器。在经历了多次重大事件及活动的考验和洗礼后,赵建春深刻感受到,运维团队最最重要的职责就是保证系统的稳定、可靠,而不是做一名救火队员。在可靠这件事解决之后,上才有更多时间提升整个运维工作的效率。

高效运维的两大理念

谈到高效运维,赵建春最喜欢拿建筑行业做对比。在他看来,建筑行业是人类历史上一直存在的一项工作。发展到今天,搭建一个高楼就像搭积木一样,能在短时间内迅速完成。这个过程实际做了大量的细分工作,每一个团队都会把自己负责的,自己擅长的工作做到极致,做到最高效,最终交由设计师设计,拼装起来就完成了。这对于运维领域也是一个很好的启发。

  • 专业领域细分

赵建春所在的团队对接入运维、逻辑运维、存储运维和业务运维的工作职责进行了明确的划分。在接入运维、逻辑运维和存储运维层面,通过专业的分式方式让团队每位成员都聚焦到更加细分的技术领域,把相应的工作做到更精更细更深。对于业务运维这部分,则是用一些对业务理解能力较好,协调能力较强的同事去对业务进行一些支撑及更多的沟通,更加专注于一些大的目标实现的事情,同时做一些优化的工作。

  • 减少运维对象

具体到运维管理层面,赵建春一直强调的一个重要理念就是减少运维对象。运维其实管理挺复杂的一块事情,一定要对内容和分析做一个清晰的边界划分,有一个比较好的分类,分类以后把每一类东西进行标准化建设和改造。具体来说,就是把服务器类型、机房数量、QA流程、容错架构、软件架构等都看成是抽象的、需要运维去管理的“对象”,对象越少,运维人员就越能深入和全面地掌握这些对象。这种寻找、合并同类项的过程,也是专业细分的一种手段。只有以上两点作为基础,才能谈到实现高效运维。

大规模海量服务运维实践

赵建春讲到,维护海量服务时,出现的故障必须得到服务器及时的处理,不能影响项目服务。容错方案就成为决定系统运维成败的第一步。我们写出来的程序和代码、运行的实例都是运维团队需要管理的资源。那么我们能不能对每个资源都定义一种形状,然后进行搭建?

  • 统一框架CMDBA

将某一业务模块上所有依赖的资源全部登记进该统一框架。通过高效的监控手段、容量管理等方式进行快速决策和调度。

  • L5系统

集容错、负载均衡、路由、灰度监控能力于一身的容错方案。 L5系统类似于DNS,底下有一排能提供的服务模块,通过L5和DNS、L5和Agent两个环节解决单点问题,并达到容错和负载均衡的作用。

  • 统一框架和架构

将整个网络通讯列成一个标准框架, 业务逻辑部分以SO动态库方式编写,与框架分离部署,类似WEB服务器上的CGI。接入层用QZHTTP,逻辑层是SPP和SF的框架。框架的统一大大减少了运维成员学习的成本。实现了统一维护,极大提高通讯效率。

  • 动态资源管理

腾讯在十多年的发展过程中积累了很多应对海量方面的成熟经验。其中就包括腾讯云的CDN。腾讯有十亿以上的用户,遍布在全国各地,为了让所有的用户访问资源更加快和近,腾讯将其做了超过500个节点,部署在离用户最近的点上,把资源分发到离用户近的地方。当出现访问压力时,腾讯云可以通过对用户就近接入的物流策略进行动态的调度,让用户访问就近的节点减少压力。资源在分发时也会进行一个预先的推送,或者预拉取,防止在访问的时候出现集中式的拉取资源的方式。

另外,腾讯云在全国上海、天津、深圳部署有QQ整体后台的接入点,可以让用户进行跨地域的分布,从而解决高并发访问时的资源调度问题。

第三,腾讯云会对访问的整个链路进行分析,防止每次大的访问量从前到后穿到整个链条上,而是会访问到局部的模块,来解决这些问题。

未来小公司的专业运维将逐渐消失

在采访最后赵建春谈到,云计算会变成未来的超级标准。从另外一个角度说,云计算就是IT产业的运维平台,无论是传统行业、创业者还是互联网公司,都会在这个平台上进行整个业务的运作,而不是把精力消耗在在基础设施的维护和管理上。

像腾讯云服务经过过去几年发展,尤其是去年表现出翻倍式增长,在全球已有50家数据中心,提供500家数据加速节点,超过10T整体带宽,4T防DDOS攻击能力,700万+域名提供解析等公有云服务。近期,腾讯云也发布了新的战略,推出“黑石”新品并公布出海计划,不断演进解决方案,提高服务能力。

所以对于小型公司来说,可能专业的运维将会慢慢消失,开发的人直接使用云计算的服务运维。而对于那些规模比较大的公司,租用的服务器比较多,涉及到一些混合云的方案,还是需要一定的管理人员,但是需求量不会像原来那么大。

未来是全面拥抱云的时代,对于运维人员来说,一定要建立学习云和使用云的意识,去主动拥抱云,适应云时代的运维需求。

 

 

 

责任编辑:Ophira 来源: 51CTO.com
相关推荐

2022-06-09 13:45:18

vivoK8S集群Kubernetes

2020-08-06 14:36:24

Elasticsear集群运维

2015-12-01 14:51:43

2015-06-11 13:24:27

集群运维

2015-08-31 05:51:37

集群运维私有云

2023-10-05 12:43:48

数据处理

2018-09-30 15:37:07

数据库MySQLMyCat

2015-07-23 08:48:29

运维

2016-04-14 11:05:21

2015-02-04 11:45:52

高效运维

2021-04-22 13:38:21

前端开发技术

2015-09-07 12:06:10

51CTO技术周刊集群运维

2021-11-16 13:19:04

数字化

2018-06-28 09:12:37

阿里云故障运维

2024-01-10 18:49:47

2023-10-26 01:26:04

Vaex数据数据集

2024-07-19 09:01:07

2017-11-24 09:20:11

数据中心网络运维

2024-01-30 07:56:57

2014-07-15 13:41:41

阿里云可信云
点赞
收藏

51CTO技术栈公众号