详解数据中心的运维自动化和DevOps

运维 系统运维 自动化
现在“运维自动化”、“云计算”、“DevOps”很热,也有很多解释,但很多人的理解是狭义的甚至错误的。本期分享嘉宾智锦将分享其在大型互联网企业和大型传统行业的工作感受,并从整个数据中心的运维管理体系建设出发,分享这几年他亲身实践所总结出来的一些观点。

[[158690]]

嘉宾介绍

  智锦

  这是真名和全名(编辑注:虽然智这个姓氏比较少)。

  2006年~2011年,在支付宝负责系统运维工作,是阿里集团和国内***批从事运维自动化系统体系建设者。

  2011年到2014年, 在建设银行总行负责运维工具和私有云的建设,运用互联网的经验和开源软件做了一些二次开发。

  目前创办杭州云霁科技,致力于把运维自动化经验和DevOps的思想做成产品。

  主题简介

  现在“运维自动化”、“云计算”、“DevOps”很热,也有很多解释,但很多人的理解是狭义的甚至错误的。本期分享嘉宾 智锦 将分享其在大型互联网企业和大型传统行业的工作感受,并从整个数据中心的运维管理体系建设出发 ,分享这几年他亲身实践所总结出来的一些观点。

  分享实录

  我在支付宝的时期,刚好是支付宝快速发展的时期,业务每年翻4倍,仅仅3年时间,就从100台机器达到了上万台机器,最早的运维自动化是被业务倒逼,被动的发现问题解决问题的过程。这个经历,大部分业务快速发展的互联网公司的都会碰到,解决方式也都差不多,前段时间大众点评运维总结的非常好。

  互联网的运维自动化,我总结为:“自下而上,野蛮生长”,见效快,但很难有资源停下来思考,相当于华山的剑宗。

  我去建行之后,有机会系统的读了老外的ITIL、COBIT等***实践,也看了不少IBM、HP、BMC的运维产品。客观的说,老外的方法论和***实践很牛逼,虽然说软件太复杂,落地难,相当于华山的气宗。

  在和从前在互联网的实践经验验证之后,突然有一天仰望天空的朵朵白云,豁然开朗,从此剑气双修,打通任督二脉,运维自动化的功力大进。

  以上为开个玩笑。不过我现在关注的重点主要是整个数据中心的运维管理体系建设,下面分享的也是我这几年实践的一些观点。可能离中小型互联网公司比较远一点,会显得务虚一点。

  现在“运维自动化”、“云计算”、“devops”很热,也有很多解释,但很多人的理解是狭义的甚至错误的。 比如,“运维自动化”这个词已经被人叫烂了,但大部分人理解的运维自动化,其实只能叫“操作自动化”。再比如,puppet 非常热,很多人觉得puppet是一个自动化工具,其实puppet的本质和精华是一个配置管理工具。

  再说云计算。云计算代表了一种互联网思维的全新技术路线,其核心思想是采用低成本、标准化的开放硬件和开源软件构建基础设施,通过自服务和自动化实现基础设施资源的交付及运维管理,通过分布式系统实现系统处理能力的***扩展,并借助合适的应用架构弥补基础软硬件的不足,满足高可用方面的要求。但是云计算实施之后,基础设施规模急剧膨胀,我们可以发现运维的复杂度是不减反增了。

  数据中心的运维管理定义

  以前我提过一个黑盒运维与白盒运维的观点。做了很多年的运维,却有可能不知道运维的定义是什么。先来给数据中心的运维管理下个定义吧!看看什么是运维。

  国际分析机构Garnter把数据中心的运维工作总结为“I&O(Infrastructure & Operation)”,也就是基础设施管理和运行管理这两个领域。基础设施服务是上线前,如何“建设基础设施”。Opertion是上线后,如何管理业务活动。

  我是认为自动化是运行维护的一个方面。 我对于广义运维自动化的理解,就是体系和闭环的建立。基础设施层面的闭环是一个运维和运维衔接的小闭环,在运行管理领域,涉及到了运维和开发的大闭环,也就是DevOps。最终的一个现象是,完全的服务化和完全的自动化。

  IT运维和IT服务管理的区别,就是一个是被动,一个是主动。

 

  说明:图大型私有云o和i成本比较 是本期中唯一源自网上的,也是根据garnter报告画的图,看了一下大致符合我的认知,就用了,没有去考证。

#p#

  未来数据中心能力

  六化是我们对未来数据中心能力的一个归纳总结。

 

  “六化”分别指的是:

  ◆虚拟化

  ◆自动化

  ◆一体化

  ◆标准化

  ◆可视化

  智能化全面提升数据中心运行管理的各方面能力。可以认为这六化 合在一起才是广义的自动化。

  运维场景三要素

  但是运维的业务场景无法穷尽,最核心的是如何建立这一个闭环的系统?这是大家最关注的。最关键的还是透过现象看本质。

  运维的三要素是什么?不是服务器、存储、网络,而是数据、流程、操作。这三者的编排和组合,就能完成所有的运维场景。 而这中间数据和流程是最核心的,操作只是具体的实施手段而已。

  运维自动化三个阶段和闭环流程

 

  这张图是纯干货,体现的是运维自动化三个不同阶段。

  右下角的是最初级阶段, 工具、流程、数据耦合的很厉害,要么都管,要么三不管, 小团队还能应付, 一旦团队扩大了就很难。

  左下角则中级阶段, 流程驱动数据,再驱动操作,形成一个小的闭环。

  最上方则是我们期望的最理想的架构, CMDB做为总控节点,通过数据掌控所有的流程和工具。

 

  这是我们最终实现的闭环流程。

责任编辑:武晓燕 来源: 高效运维
相关推荐

2024-06-11 10:41:14

2017-01-17 16:12:26

数据中心运维技术故障

2017-01-17 16:02:29

运维技术数据

2018-05-02 11:16:27

数据中心

2021-01-22 11:21:46

数字中心数字货币人工智能

2017-05-05 13:22:36

运维前线运维方法运维实践

2018-07-13 06:46:35

数据中心自动化微服务

2017-07-05 08:22:21

AIM数据中心自动化

2012-10-22 14:54:48

2009-05-19 15:48:43

2020-04-30 15:00:17

运维Ansible自动化

2020-12-11 10:20:33

Ansible运维软件包

2011-09-01 10:22:03

Cobbler运维自动化

2014-08-04 10:10:35

IT运维自动化运维

2009-12-31 16:20:52

数据中心之变 运维

2018-12-18 10:50:13

数据中心自动化数字化

2020-06-28 11:10:19

数据中心工具技术

2013-04-25 11:52:34

数据

2018-06-23 07:31:05

2020-11-17 05:52:08

数据中心自动化数据中心
点赞
收藏

51CTO技术栈公众号