“华为既是一家ICT厂商,本身又是一家企业,在整个数字化转型过程中其实也走了三十年。”华为EBG中国区副总裁李同广在2018华为中国企业运维论坛上与笔者交流:“今天华为在运维全球200多个数据中心,基本上运维人员喝着咖啡搞运维。当然,这样的‘优雅运维’实际上经历了好几代运维体系的演进,最终实现了自动化和数字化。”
李同广的话让笔者想起了国内另一家云计算企业高管的表述:任何一家云计算领导厂商,背后都有一个母体,一方面为云业务提供巨额的资金支持;另一方面,也为云业务提供很好的应用场景。
很明显,华为就属于这一类——在很大程度上,是业务需求驱动了华为的数字化转型,驱动了华为的运维变得越来越高效,越来越自动化,越来越智能化。
业务需求之变
“前两天一位省厅委办局的客户给我提了一个问题,他说早些年IT已经形成了从省到市到县甚至到乡的四级IT架构,他特别关心行业数字化转型过程中间有谁可以帮他把整个运维体系做一个梳理。”李同广举了一个例子。
为什么省厅委办局如今对运维的需求变得越来越迫切?原因很简单,因为之前是各个委办局自己建IT,而今,IT集约化了,所有的运维压力都在省厅,哪一个地方出问题都可能会影响到业务,因此,整体运维的需求也就变得越来越迫切。
实际上,云计算也是一个典型的IT集约化的例子,当然,打通各个业务部门的孤岛,同样需要IT集约化。换句话说,今天每家企业都在提的数字化转型,其中的一个关键就是要打通以往的业务断点和数字断点,这就形成了企业IT部门运维压力的激增。
怎么破解这道难题?实际上,这也是华为举办2018华为中国企业运维论坛的初衷。
华为是怎么做的?
“华为早期也是‘小作坊’式的,每个业务系统做自己的运维,缺乏统一的流程与体系的支撑。”华为云数据中心总监张鹏回忆:“后来,华为的业务遍布全球之后,整个华为的用户数量越来越多,这就要求数据中心业务是永远在线的,不能远程操作,本地宕机。”
“要致富,先修路”——这句话在张鹏看来,实际上就是打造一个大平台,支撑各个业务部门精兵作战。
“我们从2014年开始,每年投资超过1000万美元,建设这个平台,为的就是降本增效。”张鹏说到关键,“这个投入是有回报的,比如从2016年到2017年,我们的全球资源利用率中,计算资源的利用率提升了近三倍;而对于用户来说,我们有800多个应用访问性能从10秒降到了3秒,在全球用户效率方面提升了3倍。”
更重要的是,通过大平台的改造,华为让自身数据中心的管理,实现了端到端全栈“毛细血管级”的数字化运营,从IaaS、PaaS到SaaS,可以实时在线洞察每个应用、每个用户的体验和效率。
这个大平台,就是华为的SmartIT运营平台,管理着华为全球200多个数据中心、5万多个机柜、30多万台服务器、1000+PB的数据、***的VM和多个异构的云环境。
大平台的核心
华为的SmartIT运营平台,包括eSee (可视化分析和智能运营)、eTicket(IT流程管理)、eWork(运维工作台)、eOps(运维自动化)、eWatch(监控管理)、eCMDB(配置管理)、eIAM(身份管理)等七大核心组件,并通过DevOps使能云与非云Bi-Model管理,连接各类角色与资源。
所有这些,提升用户体验和业务效率是核心,总结为“监、管、控、营、服”这五个关键字。
- “监”是指数据中心、机房、计算、存储、网络等海量IaaS的智能运维管理的监控;
- “管”是指平台自动化联动打造按需随享的数据服务,集成共享、配置消费;
- “控”是指健康巡检、变更执行、自动发现实现海量运维操作自动化场景;
- “营”是基础设施、云服务、云资源的数字化、精细化、可视化运营;
- ”服”就是事件、工单、流程、变更、需求、申请、权限等集中管理服务,高效运维。
很明显,这五字一体的云运维自动化能力,带来的目标只有一个:提升人机维护比,打破“海量云平台规模指数级增长与人力不显著增加”的矛盾,保障云平台基石的稳定运行。据称,华为一个10人规模的运维团队,可以高效完成150万VM云环境的运维管理。
不仅如此,华为SmartIT平台还可以实现多云管理,集成调用公有云服务,按需使用外部的多云服务,快速支撑业务应用上云。原因很简单,因为华为自己在全球各地不可能都耗费巨资部署数据中心。
华为全球百人的云数据中心运维团队,实现全球5万机柜的高效运维管理,最主要就是得益于华为的大平台。
运维也需要顶层设计
事实上,今天IT系统正在从以前的支撑系统,逐步变成各行各业的生产系统和决策系统——而有了自动化的高效运维管理,这一切都不是问题——ICT产业正在进入一个全新的产业周期。
“以前的数据中心大多是离散型的,缺乏统一的管理;建设和运维、敏捷开发和运维之间的矛盾没解决。”李同广认为:“在ICT成为企业的生产系统和决策系统之后,企业要适应市场、满足客户需求的快速迭代,不仅开发和运维必须拉通,团队组织需要变革,而且ICT的运维变成了延伸到运营,从顶层设计就需要考虑清楚。”
具体到行业,实际上企业市场各个行业的数字化转型差异性仍然比较大,比如政府行业更关心运维组织和体系的建立,把原来烟囱式运维模式拉通;而金融客户则更关心业务连续性,特别是提前预判防止业务连续性出现问题。
“我们提出了行业运维成熟度模型,基于组织、流程与工具等维度去分析,到底现在客户处于哪一个水平?这样可以有针对性地提出我们的解决方案。”李同广所说的运维解决方案,已经从之前主要关注建设和运维阶段,向前扩到了前期顶层设计的咨询,向后延伸到运营。
在笔者看来,今天云的技术就是一种很好的通用型的顶层设计,降本增效,方便了数据资源的整合,促进了企业的数字化转型。而在IT运维管理上,由于云的集中化管理,规模巨大,就特别强调自动化和智能化,这也是华为近些年来IT运维投资的方向。
通过这次华为中国企业运维论坛,我终于知道了为什么华为敢做云,因为华为确实这些年积累了很多黑科技,也包括IT运维。