WOT架构师系列访谈(5)—— 小米方少森

原创
新闻
51CTO 2014 WOT全球软件技术峰会将在2014年7月25-26日在北京富力万丽酒店召开。我们将针对即将参会的架构师做一系列的访谈,以便大家进一步了解会议内容。本次访谈的对象是小米运维部的高级运维研发工程师方少森。他主要负责小米运维自动化设施的设计和开发。本次峰会中,他将分享小米的自动化运维整体方案以及生态圈建设。

【编者按】 51CTO 2014 WOT全球软件技术峰会将在2014年7月25-26日在北京富力万丽酒店召开。从本周开始,我们将陆续公布会议内容,并针对即将参会的架构师访谈,以便大家进一步了解会议内容。会议详细议程见: http://wot.51cto.com/2014/

本次访谈的对象是方少森。他是小米运维部的高级运维研发工程师,在本次的WOT软件技术峰会中,将分享小米的自动化运维整体方案和核心的运维自动化组件,对此感兴趣的朋友们多多关注吧。

【讲师简历】

方少森,小米运维部的高级运维研发工程师,主要负责小米运维自动化设施的设计和开发。在小米成长之初,负责小米应用运维团队的组件和运维自动化规划。曾就职于百度,负责应用运维和运维开发工作。

方少森  (@方少森

以下是51CTO记者对话方少森的访谈实录:


记者:您目前所在的团队规模大概是什么样?运维和研发人员的比例是多少?

方少森:小米公司成立的时间并不长,和很多创业公司一样,最开始并没有专有的运维团队,都是devs同学兼职的,既要兼顾业务开发,又要兼顾运行维护,也很辛苦。那时在运维相关规划上还没有太多的考虑,操作、上线基本都是手工面向单机进行的,且缺少有效的监控。毕竟术业有专攻,于是公司逐渐认识到运维的重要性,并在2012年成立了运维团队,我们的自动化建设是从2012年5月份开始的。截止目前,小米涉及业务的运维工程师已经超过40人,支撑的研发人员达到500~1000人,并且还在不断增长中。

记者:请您简单谈谈小米当前主要的技术架构,涉及哪些方面的技术?

方少森:这个问题太大了~ 简单来说是LNMP+大数据分析+云存储,模块选型上多参考开源方案,整体方案上多为自主设计。

记者:请您介绍一下小米的自动化运维之路,主要分几个阶段?每个运维阶段遇到的困难与挫折、以及克服的原因是什么?

方少森:单看运维自动化,经过过三个阶段:纯体力劳作 -> 系统独立的自动化推进 -> 整体的自动化。

在运维团队成立之初,从开发接过来的服务基本都是手工管理。接手服务之后,对服务进行统一化管理,包括环境、依赖、管理方式等,并着手开发配套的运维平台,包括机器管理、监控、服务部署、域名管理等,这个阶段是各个系统都有自动化的解决方案,有API可以使用,但是整体上没有串起来。有了各个系统的自动化方案后,引入资源调度,合理利用各个系统API逐步整合出现有的整体自动化方案,将机器上架后到服务部署上完全串起来,做到无需登录机器操作、无需手动配置、无需手动调整监控。

期间遇到的***困难在于如何将服务的现状逐步牵引到希望的自动化方案上来,经历后的心得主要有以下几点:

  • 兼顾现状,理想设计与现实情况的平衡;
  • 收益与改造成本兼顾,改造不能太多太复杂;
  • 看似一个简单问题,实际需要很多基础设施、开发模式进行改变。

记者:当服务器遇到大流量(比如说小米手机抢购时间节点的流量)峰值时,您这边有没有专门的应对措施?是如何做性能优化的?

方少森:如何应对每次电商活动时的超大流量问题一直是我们在不断优化的事情。整体上包括业务优化和性能优化两部分:业务优化包括登陆购买业务逻辑的简化和过大流量的吸收排队,性能优化包括通过ssl加速卡提升nginx性能、cdn、各层级引入cache等进行优化。

记者:公司实施自动化运维后,是否真的在本质上促进了运维自动化水平的提高?您个人认为还有哪些需要改进的方面?

方少森:自动化对SRE的日常工作影响非常大。自动化能够将SRE从频繁的环境搭建/调整、部署上线、监控调整等琐事上抽身出来,并且能否规避大量的人为风险。

目前比较紧迫的还是人力问题,项目处于上升的关键时期,需要人手维护系统和满足新的需求。

记者:作为运维开发工程师而言,您目前最关注的技术是什么?您自己是如何学习并掌握新技术的?

方少森:目前在关注轻量级虚拟化、运维数据分析(trace、安全等)、以及资源动态调度等方面。了解的方式主要是开源社区、各个会议以及公司之间的交流等。

记者:以您的经验来看,一名合格的运维研发工程师应该具备哪些方面的技术素养与知识储备?

方少森:其实对于参与运维工作的同学,不管偏开发还是偏运维,对运维的意识和感觉是必备的技能。只有设计运维系统的时候充分考虑到使用的场景,才能够确保将来系统带来正向的作用。

因此在小米,SRE承担了运维系统产品设计和大部分开发等工作,这样可以确保运维系统来源于实践、作用于实践。包括我在内也是兼具SRE和运维开发。(全文完)

 

阿里、百度、京东、淘宝、谷歌、Facebook、Tesla都到2014 WOT全球软件技术峰会了,你还等什么?这些***的公司将***对外公开技术,涵盖八大主题,共有40+课程,部署实施、运维开发、大数据、Spark、敏捷开发一个都不少。除了***手的经验之外,还有未来两三年的技术趋势,你会让自己错过这样的技术大会吗?

 

责任编辑:黄丹 来源: 51CTO
相关推荐

2014-06-06 17:01:34

杨光WOT架构师WOT2014

2014-05-28 16:32:08

WOT架构师WOT2014

2014-05-13 23:24:18

WOT技术峰会袁斌WOT2014

2014-05-20 10:25:16

刘宇WOT架构师WOT2014

2014-06-05 13:27:13

孔德亮WOT架构师WOT2014

2014-05-16 10:13:34

WOT架构师WOT2014朱金清

2014-05-29 10:05:34

wot架构师王川WOT2014

2014-05-26 09:22:02

WOT技术峰会杨立东WOT2014

2015-10-10 17:43:01

360刘鹏大数据

2015-07-01 17:32:05

WOT2015运维安全朱磊

2015-06-26 10:36:17

WOT2015

2015-07-09 13:53:35

WOTDBA

2012-08-21 14:17:24

2012云计算架构师峰

2016-11-10 13:29:34

WOT2016会前采访欧阳辰

2015-04-27 17:27:01

WOT云智慧

2012-09-06 13:12:41

架构师ArchSummit

2009-12-18 10:22:50

Ray Ozzie架构师

2020-08-24 08:50:12

架构师TL技术

2015-07-27 15:47:54

2018-07-03 15:46:24

Java架构师源码
点赞
收藏

51CTO技术栈公众号