听云技术副总裁吴静涛:快速实现用户体验可度量的监控管理平台

原创
开发
2016年4月14-15日,由51CTO传媒主办的WOT2016互联网运维与开发者大会在北京珠三角JW万豪酒店召开。本文是来自听云技术副总裁吴静涛先生给大家带来的是主题为《快速实现用户体验可度量的监控管理平台》的精彩演讲实录。

2016年4月14-15日,由51CTO传媒主办的WOT2016互联网运维与开发者大会在北京珠三角JW万豪酒店召开。秉承专注技术、服务技术 人员的理念,自2012年以来,WOT品牌大会已经成功举办了八届,积累了大量的技术专家资源,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要 的技术分享交流平台以及人脉拓展平台。

本次会议分为11个技术主题,分别是:数据库技术与应用,大数据与运维,云计算与运维,运维安全,移动运维,容器体系构建与实践,运维自动化,行业运维、监控与性能优化、高可用架构和分布式存储技术。51CTO作为本次大会的主办方,将以快速报道、现场专访与后期视频等形式展示这场盛宴。

下面是来自听云技术副总裁吴静涛先生给大家带来的是主题为《快速实现用户体验可度量的监控管理平台》的精彩演讲。

吴静涛,现任听云技术副总裁,主管售前,售后技术和技术支持中心。1999年加入现在的应用交付领域,后转战应用性能管理领域,对网络,安全,优化,虚拟化,SDN/SDDC和多活数据中心等基础技术都有深刻理解,曾任F5中国区技术总监。工作经验涉及到互联网,电信,金融,政府等各主要行业。

【以下为现场演讲实录】

我跟前几位的演讲者有一个本质的区别,他们都是做运维出身的,我们今天的话题是运维与开发者的峰会,可是很抱歉的告诉大家,我不是做运维出身的。不过因为身份不同,我希望我的内容能给大家带来一个很前面几位完全不同的想法和思路,给大家不同的感觉。

我今天带来的题目是《快速实现用户体验可度量的监控管理平台》,比较坳口。不过我希望我讲完之后,大家能够理解我带来的为什么跟之前的人完全不一样的思路,原因非常简单,因为我带来的这张图,就跟之前的不一样,他们都很简单,我做得非常复杂。他们每个人的图,那个页面的内容都极其简单,我拿出来的第一张就有这么复杂的一张图,原因只有一个,不想让你们看清。我来告诉大家,听云想给大家带来的不同,不论以前的研发人员,还是运维人员,都是坐在自己的机房里面、数据中心里面、办公室里面来做自己的工作,而今天在移动互联网的时代,我们要走出我们的机房、走出我们的办公室,到真正用户端体验一下,到底什么叫做以用户体验为视角的运维行动,这是真正以运维为中心的思路。

屏幕上的左上角,这张图是我以前的工作经验,中国移动4G的核心的示意图,看起来极简单了,但实际上还是蛮复杂的。右下角是某个大行的双国世纪中心的架构,我要给你们视觉冲击,我只想给你们一个印象,就是从移动互联网开始,我们来想象一下,从这个开始,到后台的DB为止,到底有多少环节?所谓的互联网,有一个互联网思维,在9几年的时候,那时候我们在做新浪、搜狐、TOM,那时候在做网页,后来有了百度、有搜索、有游戏、有视频,之后有B2B、B2C、O2O,在过去这些年,互联网不停的变化,有一件事情从来没有变化,叫做用户为王,用户体验第一。当移动互联网90后小朋友们拿着手机访问你的应用的时候,你的开发人员跟运维人员,到底应该用什么样的角度来考虑这个问题?听云所带来的完全不同的想法,我们希望能够从用户端的体验入手,来去看整个系统的运行跟维护,包括开发,这是个全新的理念,于是我们在跟全球合作的时候,有一个非常有名的外企经常用的一个Gartner,第三方执行机构,它在中国选择听云做唯一合作伙伴,推出了下一代的运营性能管理平台的规范,中间有最重要的就是五条,其中第一条,以最终用户体验作为入口,来去做后面所有的应用性能的监控跟管理,说的稍微有一点点的太古板了,这个不是很好听。这是我们真实想做的一个方向,也就是说我们希望的是开发跟运营,跟运维要走出自己的机房,真的能够到用户端去关注用户的体验,反过来往回看。

怎么往回看?这个就是我们提出的理念。从外网看无论是什么样的用户,可能是一个APP,甚至加了一些H5,混合式的客户端,我把它所有的用户体验拿回来,这是第一条。之后我们做均值,好、坏、快、慢形容词全拿过来做数字化,我就拿过来做均值,低于这个值的叫体验不好。体验不好应该怎么处理?就可以从客户端开始,从用户体验交互开始,从网络传输到后台业务逻辑,到整个代码执行效率,从头查到尾,来真的去把这个用户体验不好的人给解决掉,这样就能保证用户体验的可持续提升。

各位,互联网的用户体验提升这句话意味着什么?会意味着你的首日留存率,意味着你的月活,意味着你的客单值,意味着你的利润率,这就是用户视角做这件事情跟之前做运维有什么不同和区别。

听云做这套系统有8到9年时间,基本上大的互联网应用都是我们的客户,这套思路已经慢慢被客户所接受跟认可。我们先看从客户端怎么考虑这个问题。第一步,我们四步可以实现这个技术,为各位运维人员在比较苦的道路上,能够提供一点点光亮的可能性。我们会给大家一个非常简单的思路和平台,而不把它做那么复杂。

第一步,从客户端入手。客户端的体验好坏,实际上是你的命脉之所在,有什么可以影响客户端呢?交互的过程。你访问的时候,它的颜值。你在使用它的过程中的错误率,APP的崩溃率,一系列可能性都会造成用户端体验下降,好坏快慢是用户体验,能不能把它变成一个数值?听云目前在手机客户端,差不多有8亿独立终端监控着全中国用户真正体验,我们有这个数据基础在,所以我们可以把这些数据整合回来,真正收集在一起做一个加全的运算,告诉您说在这样的业务条件下,这样的一个用户体验叫好,否则叫不好。而且注意到这个词是非常困难的基准,给大家一个提醒是这样的,双十一的时候,如果你在淘宝三分钟之内,你能把钱付掉,你应该很开心,因为抢到这个货品了。如果你用另外一个客户,比如滴滴结账的时候,30秒没有结完,你觉得这事肯定不对。为什么3分钟觉得快,30秒觉得慢?因为是在不同业务场景下。甚至人的不同心态下省事,人的生活形势下,好坏快慢的均值完全不一样。如何通过数据分析,做出这样的均值出来,这是第一步。

第二步,网络时间切片,判断它的原因是客户端的交互造成的、网络原因、后台造成的?从头切到尾。如果不是交互问题,不是传输问题,那就可能是后台问题,后台问题怎么办?第一件事情,先把后台的业务逻辑的调用关系拿出来。问一个问题,一笔交易过程,一个业务后台需要多少个业务逻辑单元的支撑?有没有运维人员能画出来?如果没有,当这个业务出现故障,运维的人经常使用三二原则,以前就是这么干的,这就是我们以前运维经常干的事,为什么不能更好的帮助这些应用?因为你不晓得业务逻辑。如果有人能够全自动的把后台业务调用逻辑关系拿出来,慢在哪?就更加一清二楚了。

实在不行,我把每个Web交易过程,把它时间做切片,全部拿出来,分析到那一行代码执行的时间量是多少,这样来看到底问题出在哪。听云今天带来的跟之前几位有运维经验的人完全不一样。我不是从数据中心往外围看,我从外围用户端往里面看,看谁的体验好、谁体验坏,体验坏的那个人到底什么原因造成坏,从交互开始到网络传输,到业务逻辑,到每一行代码的执行效率,我都拿出来看,到底问题出在哪里,这是一个全新的运维的思想的理论。很荣幸的告诉大家,这套东西,我们已经做了很多年了,基本上已经实现了。下面给大家一个很小的视频,看一下到底实现的效果是怎样的。

大家看一下,现在就是一个用户端的评分,非常明显的是我们用几个简单的数据表明,从错误率、下载速度、首包时间,这个用户的体验是多少分。注意到,应该很细的,可以做得更细一些,甚至手机版本、APP版本、你的LS的版本。现在这个分值比较低一些,不可接受,到底是谁造成了这个分数比较低呢?用户体验不可能都不好,原来在北京边上不好,其他地方可以可接受。比如在河北、天津,7秒几的首问时间,这个体验实在是非常难受的事情。到底是谁拖垮了我们的用户体验?这个人是谁?IP地址是什么?他的手机型号是什么?我把数据信息全部抓出来,看他到底发生了什么内容。这时候我就把整个访问过程模拟出来。点一下它,你就可以进入到下面实际内容。大家看到这个就是整个页面加载过程,在页面加载过程中,我们已经可以把首包时间、延迟时间、排队时间,全部拉出来了,而且我能够还原当时用户端访问的细节。我不知道分析是交互的问题,还是传输的问题,还是后台服务的问题,我们是可以看到,他到底哪的耗时比较强一些。现在我们可以很清晰的看到,这里面首包时间长了,如果首包时间长,原因是什么?他的应用处理慢了,这是后台的问题,不应该找APP,应该跳到后台去,我们能不能跳到后台去呢?大家看一下,在屏幕上面是有一些小的标记,那儿有一个小的圆球,跟一个小的跳转。我们已经完全打通了全过程。我们看一下每个Web应用过程到底耗时多少,很清楚的显示在屏幕上。比如说虚拟化,比如说SOA,可能有各路跳转,我不管它,一查到底,同时我们可以看到,如果用肉眼来看,哪一个时间的量最长,它耗的时间就最长,每一行代码,甚至我们可以把它点开,我们看到蓝色显示的是一个mysql query的过程,我们可以点开它的请求,看它到底发生了什么内容。

我们的想法很简单,运维是一个比较介于苦A跟苦C之间的活,听云希望为各位比较苦的人提供新的思路。外边的用户体验是什么,有一套评分体系出来,不管你是什么样的客户端,APP还是混合式的客户端,把用户体验拿出来做评分、做行业均值,你是电商行业、视频行业,还是什么行业的做均值,低于这个均值叫做体验不好,体验不好的,我从你手机交互开始,一直到后台DB为止从头找到尾,做时间切片,我们看问题到底发生在哪里。这就是四步骤实现以用户体验为纬度的应用级别的应用监控跟管理体系。

想理解它很容易,各位看到屏幕的右上角,之前的几位专家都是运维级的大牛,十几、二十年的经验,我也是十几、二十年的经验,虽然我不是做运维的,可是这些有经验的人都经常会参加一种非常苦恼的会议,出大事了,运维的人最怕的一个人,叫老板的朋友,最怕那个人说一个字,老板的朋友说慢。我们所有运维大牛都参加过这种会,各个部门、各个厂商,几十号人谈谁快、谁慢,为什么、谁的原因。搞运维的兄弟们难道不专业吗?就是这个慢谁解?鬼知道谁接,再说吧。那个时候,完全是靠这个老大爷,拿着一个听诊器,专家嘛,凭着听诊器判断说问题出在哪里。可是他只能解决一些小活,我不是看不起之前的几位专家,我问大家一句话是这样的,如果你今天去医院看的不是感冒发烧和咳嗽,而是看的肿瘤,一个比较大的活,你觉得一个老大爷拿着听诊器给你从头到尾听一遍,你愿意吗?还是希望到最右边的那边的兄弟,又年轻、又帅,又穿着衬衫,给你拿着那个片子看,说我从头到尾给你切了60片,你这儿有一个肿瘤,你瞧就在这儿,我看得见。各位,这老大爷跟年轻人之间到底有什么区别?就是有一个,他拥有一个平台,他可以做切片。

今天听云的想法是什么?非常简单。首先我们先定义好还是坏,其次把这个坏的人拿出来,把它做切片,从头切到尾,从体验开始切,一直切到DB为止,全过程切完,看问题到底出在哪了,然后我们再说如何去治疗,这个绝对是为运维的人员,让研发人员真的在一个平台上能看到自己的代码运营效率,看到用户体验,看到实际应用的效果,这是一个完全不同的思路想法。各位想象一下,可能对您的工作会造成什么样的不同的影响?是完全不同的想法和思路。

对运维人员而言,一般情况下内部出问题很容易查,有报警、有监控系统,哪那么难?真正出问题都是从外面客户开始。现在我来给大家看一个非常标准的,从客户打电话投诉到后台处理的流程。想问各位一个事情是这样的,如果有一个人打电话投诉,说我用了你的APP不好用,你觉得这个人的投诉的后面,可能有什么样的影响?我直接说答案,是这样的,问各位一句,当你们用某一个APP产生了菊花,或者产生崩溃的时候,你有没有打电话给那个公司说我用的体验不好?当然没有。会不会意味着你只要接到一个电话,他的背后可能是一千人呢?有可能。跟各位提的第一个醒是这样的。我举一个实际的例子,假如今天您的APP没有任何问题,因为安卓的升级,造成外部用户大范围用户体验下降,甚至崩溃。你坐在数据中心里,你知道吗?你要等到什么时候知道吗?有人投诉吗?我刚才问了,现场1000人都没有投诉,你怎么知道?你接到第一个投诉电话,可能后面就是1000个人受影响。难道要等到第100个电话打进来,才知道自己出问题吗?对各位来讲,第一个最大的变更来自于一个,我们不要等客户投诉来了之后来处理问题跟解决问题,而是在问题没有被投诉之前,发生的一刹那,我就要收集到这个问题,帮助他解决这个问题。

各位,我们前一天在春运期间有个大客户卖票的,本来当时大家在网站上用花边新闻在谈,说白百合的照片比对问题,做校验码,我们监控体系发现有云南跟广西两个手机用户忽然买到票了,于是快速的介入解决,这事没了。想象一下,如果这事爆了,两只手没买着会不会成为头条新闻?完全不同的思路和理念就可以造成完全不同的结果。各位运维的兄弟,你们觉得这样的新的思路和方法,会不会对你的工作造成好的变化和影响?在处理中间,以前有多少专家坐在一起做会诊?有没有?太多了。能查出来吗?难。而今天如果有人叮当叮当60片,我100片都给你切出来了,你告诉他时间去哪了,谁的问题,到底是研发的问题、运维的问题、传输的问题还是运营商的问题,谁的问题谁解决。我强调不要坐在数据中心里面做你的运维跟研发,而要走出数据中心,以外部用户体验为主考虑这个问题,因为它意味着你的月活,意味着你的客单值,意味着你的利润比,这是最关键的问题所在。

各位有研发的自己做吗?答案是否定的。

第一条,好坏是个形容词,需要行业的均值,您只了解自己,您不了解业界,我了解业界。

第二条举个例子,某大的电商集团,足够有钱的人,投了30个人做了一年,只覆盖了部分,而且不是字节码现实,是在应用中埋点的方式。

第三条,我最喜欢的一条,作为一个技术人员,应该是以“专、精”为目标,可是谈到用户体验的时候,完全有可能从外面的手机终端的研发开始,然后有机站的接入,找互联网的网官,找移动互联网的路由,还有多数据中心、CDN、API、DB等等,从那儿到这儿的所有技术有谁敢说都懂? 我们认为应该用品牌解决这个问题。我们提供的是应用性管理平台,我提供相关的服务。我的人天天服务的就是那些大的互联网站,即使我能力再不强,我天天见猪跑我也能闻到猪肉的味道,久而久之这些人就成专家了。在你的系统里面,不可能天天出问题,20%可能出问题,80%能自己解决,顶多20%解决不了,为了20%的20%,您说我要建专家团队,专门搞运维管理,这事不太靠谱。BAT都是听云的大客户,你再考虑一下要不要自己做就可以了。

之后会实现真正的目标。我们重复一遍,我不是运维的专家,我跟之前每位运维大牛,跟大家谈的不是同样的理念,我要提出一个新的想法跟思路,从客户端开始,把好坏快慢的形容词做数字化、做量化,到底在这个行业里面,什么叫好?什么叫坏?做比对。甚至你可以做竞品的比对,你的竞争对手都是谁,人家是多少,你是多少。从外表来讨论,这些都是公开的数据,我们帮你做这些分析,到底好跟坏在什么地方。

第二步,既然有了数字化就可以做比对,比对就有高、有低,低的怎么办?从客户端的交互、到传输、到代码执行,全过程做时间切片,一清二楚查出来问题出在哪里。

第三件事情,我也知道各位挺累的、挺忙的,也挺贵的,那是一个平台加上服务,咱就为了20%的20%的问题,没必要,买个服务就好了,我们提供这个服务给您,实现一个最终极的目标,非常简单,就一句话,以用户体验为视角做应用性能的监控与管理平台,最目标是提高用户体验,提升你的留存率,提升月活,提高客单值,提高你的利润率,融资上市,出任CEO。

最后给大家提供一个二维码,扫一下就可以进入我们的群,就可以申请免费的测试。听云是个服务,我们跟刚才的AWS的理念是一样的,先服务,有效果再收费,没效果不收费,只要加入这个群,你就可以免费申请听云的账号,可以免费用用好的,有效果了,你再付钱给我。我的内容结束了,谢谢大家!

主持人:感谢吴总的分享。下面有请谷歌工程团队带头人李聪,他将为大家带来演讲《运维理念与实践》。

以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。

责任编辑:王雪燕 来源: 51CTO
相关推荐

2016-04-19 18:02:33

APM运维听云

2016-02-01 16:58:41

AWS技术峰会AWS Summit2

2017-05-25 12:35:11

2016-05-17 10:03:39

用户体验运维可度量

2012-05-14 21:28:10

愤怒的小鸟

2015-11-24 13:18:02

WOT2015

2015-07-24 12:38:00

吴静涛

2014-03-03 15:26:10

面试Amazon面试

2016-09-06 17:21:00

APM听云用户体验

2015-11-04 15:36:57

听云吴静涛APM

2014-09-26 10:11:37

智能硬件

2011-04-28 15:41:27

火狐Android

2011-06-02 17:05:22

云制造用友中国制造

2011-11-17 09:55:38

SAPiPad

2011-10-28 09:38:50

WebOS

2011-05-05 09:33:54

惠普云计算

2023-12-12 16:32:14

Commvault

2010-10-29 22:40:09

VMware私有云

2014-11-06 13:25:43

腾讯云

2015-10-22 17:55:10

Hewlett Pac叶健
点赞
收藏

51CTO技术栈公众号