【51CTO.com原创稿件】“初夏,你终于有机会去享受那宝贵的年假。海风温和,日光温暖,你戴着墨镜,闲情地看浪潮起落。此刻你正回忆,初入运维时那‘故障无情,假期无休’的日子……手机适时地响了——‘报警’。你不慌不忙,对着手机语音说了一句:‘回滚。’便放下手机继续看海,任海风吹乱你的发,而你的内心正如远方的海一样平静。”
这是2017年4月15日“WOTA全球架构与运维峰会”上,搜狗运维总监张博描绘的未来运维的理想状态。他当天的演讲深入介绍了当下搜狗为实现理想运维(“智能运维”)而正在研究的方向。会后,我们有机会与张博先生进行了深入交流与采访。
张博·搜狗运维总监
运维的三大痛点
运维之所以如此地渴望一个安心地假期,在张博看来这恰恰就是当下运维痛点存在地突出体现。目前运维普遍存在三大痛点:操心成本、烦人成本、智商不够用,这三个痛点也正是张博演讲时反复提到的。
所谓操心成本即与相声《扔靴子》所表达的主题相似——你并不知道“第二双靴子什么时候扔下来”,运维也是同样的道理,你并不知道故障什么时候来临,所以你一直提心吊胆,惶惶不安。并且很多时候报警了,但是并不能反映真实情况,这都是运维操心成本范畴。
烦人成本则是保证线上可靠性所导致的,一旦出现问题,无论大小,运维人员是首先被问询的,所以运维人员最容易被打扰,这导致运维人员并没有大块的时间去做运维开发(搜狗规定:运维人员不做开发将不允升职)以及开发效率过低。
第三个痛点:智商不够用,很简单,从字面便可理解。遇到故障了,但是并不一定能够立即定位故障,特别是遇到复杂故障,如何找出故障是非常痛点的问题。
针对当下运维的痛点问题,搜狗都做了哪些工作呢?张博与我们分享了正在进行的三个项目,这三个项目共同组建了搜狗的智能运维体系。
智能熔断实现原理
首先,是智能熔断系统。这是目前搜狗针对运维操心成本正在研发的项目,其主要思路是:根据运维问题的时序性,做智能监控,一旦发生问题,运维人员便可远程进行操作,可采取熔断回滚。这并非是什么新技术。在股票、医学领域,基于时间轴的数据监控早已被广泛应用。股市利用数据监控预测股票涨跌,医学可以利用数据监控预测疾病的发生时间,这些特点与运维有高度的相似性。而这恰恰也是目前运维领域的挑战所在,尖端人才大都集中在金融与医学领域,IT领域寥寥无几。
智能问答系统——维秘
第二,则是智能问答系统——维秘。这个问答系统已经在搜狗内部开始内测,这也是为了解决运维的第二个痛点——烦人成本。运维人员每天需要解答各种各样的问题,这个工作需要花费大量的琐碎时间,而这个工作完全可以交由智能机器人来解决。
智能机器人
这个机器人有三个功能,一个是智能查单的功能,在搜狗内部运维系统有很多工单,当咨询人员工单号,就能查到工单进行到哪一步了,类似于在搜狗搜索里面,你输入快递单号就能显示快递状态。第二个智能找人,咨询人员提问后,可能并没有命中知识库(知识库由运维人员提前编辑整理好),机器人没法回答,但机器人可以判断这个问题是属于哪个领域,然后推荐此领域的专家,如问到硬盘的问题,则会推荐一位硬件领域专家解答问题。而咨询人员与专家的对话又将得以保存,并作为机器进一步学习的资料。第三个就是最为常见的智能问答,咨询人员提出问题,机器人直接根据知识库来进行解答。
第三,故障精确定位系统。这是搜狗目前已经完成的项目。当收到一个从用户端访问搜狗业务报警的时候,这说明搜狗的网站可靠性出了问题。以往解决问题往往都是基于经验,人肉定位。张博表示,如今搜狗的做法则是把问题抽离成一个规则的模板,抽离成一个规则的集合,然后基于特定业务架构图去分析,最终定位故障具体原因。
大致的算法是每一个探针的请求都带一个ID,这个ID在各个模块都是打通的。搜狗运维人员分析这个请求的ID在每个模块里面它的表现,根据这些规则模板看它是否命中设定规则模板,然后定位系统系统再根据这些规则模板的命中情况做一个决策,将故障定位。甚至可以定位它是属于哪个模块的哪个节点,这样就可以快速的去处理这个故障。
这三个系统是张博与搜狗运维同仁为实现未来运维理想状态——面朝大海,万事OK,正做的努力,然而我们又要回归到一个经常被讨论的问题,实现理想之后呢?运维会被自己创造出的人工智能代替吗?
被问到这个问题,张博面露微笑,显然他早有观点,张博异常坚定地表示:“运维人员的工作肯定不会被代替!但是运维所从事的工作内容会发生质的改变。人工智能到来之前,运维人员从事的工作依旧是上线人肉操作。但是智能运维到来之后,运维人员则是负责智能运维引擎的研发,让引擎更聪明更稳定,所以人工智能的到来不仅不会让运维工程师失业,而是让运维工作升级。因为毕竟强大的不是人工智能,而是开发这些人工智能的人。”
这个观点与递归神经网络之父、德国计算机科学家尤尔根·施米德胡贝观点颇为相似:“人类总是很善于创造原本并不存在的那些工作……预测哪些工作岗位将会消失并不是难事,但预测未来将会出现什么新岗位就不容易了。在1980年代,谁会想到30年后会有人做职业视频游戏玩家或者YouTube明星就能赚到数百万美元呢?”
随着人工智能的概念热炒,任何领域都希望通过人工智能得到人力解放,“机器代替人”的争论更是从无休止。人工智能的发展就目前而言,其初衷是解决机械重复性以及大规模运算类工作,而运维恰恰是这样一个高密度工作强度的领域,这也是目前人工智能为何能够率先应用发力运维领域的因素所在。诚如张博所言,人工智能的到来并非代替运维人员,而是对运维工作进行升级,而这恰恰也对运维人员提出了更高的要求——自我升级,与时俱进。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】