备受瞩目的年度国际***运维专家盛会SREcon今年来到了亚洲,于当地时间5月22日-24日在新加坡举行。SREcon是由计算机科学领域的知名机构USENIX主办,Google、Facebook等硅谷互联网巨头联合成立的运维专家会议,每年定期举行,聚集了关注网站可靠性、系统工程、以及复杂分布式系统相关的技术人员。
以批判性思考、技术深度剖析、持续改进以及创新为主旨的SREcon吸引了来自Google、Facebook、Twitter、 LinkedIn、Dropbox、 Netflix、 Pivotal、Pinterest、 Uber、 Twitter等国际知名互联网公司的***专家,在现场分享了网站可靠性工程相关的议题,包含大规模网站可用性提升、资源优化及性能改善等话题。其中,国内领先的应用性能管理服务提供商听云受邀出席了SREcon2017Asia/Australia,技术副总裁吴静涛(Fred Wu)在现场与听众分享了《Good, Better, Best, Mobile user’sexperience》的话题。
听云技术副总裁吴静涛在场分享
现如今,移动应用更加垂直化、场景化。从办公、居家再到商业,细化到旅行、运动、消费领域等每一个层面,都直指终端用户。一款客户端如何做到复杂但易于使用,强大但不复杂,在这其中用户体验变得尤为重要。传统DC与云监控平台更加关注高可用性,Restart—Reboot—Reimage是运维工程师***采取的三个动作。在如今的IT环境中,移动应用更多需要采用第三方监控平台来帮助运维工程师清晰的了解应用运行状态与实时用户体验,将DC的监测范围扩大到移动用户,从系统深入到对应用和代码运行的监控,在出现问题的***时间进行定位与追踪,保障用户体验。
以下为演讲实录(中文):
在中国,随着Z代人逐渐成为市场消费的主力军,移动互联网开始大规模爆发并逐渐渗透入这一代人生活中,而Z代人,则是最为注重服务质量的一代人。也就是说,在中国的移动互联网市场,如何保证用户的体验已经成为业务的核心。
[以用户为中心的第三代平台正在到来]
借用一个IDC报告,它提出了三个阶段的连续性工业转型:
***代平台,即以计算为中心的工业平台。
第二代平台,以应用为中心。现在主流的IT企业都是以应用为中心的,也就是说,数据中心是以应用的可用性为***目标,它是以应用为中心构建自己的基础设施,应用以及运维体系。
第三代平台,不是以应用为中心,而是以用户为中心。此时,就产生了非常大的冲突和改变的可能,结合近年来全球移动互联网和云计算的爆发,以这两者技术基础的变更而产生了关联为模型进行相关阐述,也就是说在未来的三到五年里在非常快速的全球的IT投资里,将会从以应用为中心慢慢转向以用户为中心。而以用户为中心,就是用户的体验和感受如何。
企业的第二代平台往往都是以应用为中心的,从数据中心是往外面做,为外面提供服务。而听云的想法是以用户为中心,从态势感知发起,向数据中心内部发起。这样就是一个颠覆性的不同点,也是听云***的核心所在,也是这次听云参加这次大会希望能够传达的全新的理念和技术解决方案的一个真实的想法和目标。
那么在移动互联网大行其道的今天,从手机发起访问开始到后端的DB回应为止,中间会涉及到多少个环节?答案是成百上千,在这其中有任何一个环节出现问题,都会造成用户体验下降。
通过下图我们可以看到,移动终端用户的80%~90%的时间都花在了前端,也就是说绝大多数用户体验的延迟或者用户体验的下降都发生在前端。而以前所构建的所有数据中心、基础架构、运维方法全都是以应用可用性为主的,换句话说,很少去关心用户端。
那么便会有这样一个情况发生:数据中心访问通了,用户端访问却不好,在用户投诉后,运维人员发现服务器正常、CPU正常、内存正常,加载正常,结果便是只能笼统地回复客户正在排查,从而不了了之。
[新一代应用性能管理核心]
国际知名咨询机构Gartner曾规范过下一代应用性能管理的核心,其认为在未来以云计算+智能终端的云端结构里面,传统的运维应该慢慢的被抛弃掉,应该去发展成为一个以应用、用户体验为核心的新一代结构。
这里包含了三个主要的组件:
DEM,即用户体验的监控,包含:
Ø支持对操作体验和数字化探针、人和机器的行为优化;
Ø与企业的应用和服务交互;
Ø包括基于网络和移动端最终用户的真实用户监控(RUM)和综合事务监控(STM)。
ADTD,即应用组件的深入理解、跟踪和分析,谈的是业务逻辑的自动拓扑,属于监控的范畴,包含:
Ø了解服务端应用之间的关系,将事务映射到节点上,对方法和其他资源进行深度的检查;
Ø这是一系列的过程,关注点在问题的修复,且是相互关联的;
Ø包括应用程序拓扑发现和可视化,用户定义的事务处理,应用组件的深度钻取等。
AA,即应用分析,分析不同的语言和不同的系统间如何能够做跟踪,包含:
Ø机器学习、统计推断和其他方法;
Ø自动检测Java和.NET服务端应用支持的HTTP/S事务的性能异常的来源(或根本原因)
[五步实现NG-APM的全栈溯源,实现***移动用户体验]
对于传统IT系统来说,体系结构设计和基础设施设计时都会使用一套方法。即系统中有数据中心,无论它是虚拟化、云化还是传统的大机,都会运用网络运维、数据中心运维,并且都是通过客服来了解外部用户使用体验。
在过去,传统企业往往以可用性为主去构建自己的数据中心,而在今天则应该走出数据中心,把用户端接进来,把体验监控做进来。在数据中心监控里面,不应该只监控到服务器,应该监控到业务逻辑以及监控到代码运行效率,看到真实用户的体验不同。在这样的大背景下,如何更快的找到性能问题并进行修复呢?
1、EUM,听云用户体验评分系统
2、STM,交互性能分析
3、Network,网络切片分析
4、Applicationtopology,应用拓扑展示
5、Codereview,代码偏移量监控
[多维度实现新平台转型]
现在的企业在转型第三代平台的过程中,实际上是有可优化的方法和路径的。依照听云规范的下一代应用性能管理概念,需要利用一套新的方法去判断真实的用户体验。首先,这就需要先对用户实施监控,出现问题时能够快速进行判断和优化,这样才能真的以用户体验为先去实施组织内部结构。其中,这个结构将会从三个维度组成,分别是Widen、Deepen和Auto。
Widen:
当企业内部结构是以用户为中心的时候,这一套逻辑方法可以很好的去帮助实现优化。它实际上就是规范的DEM的过程,就是把用户端的体验包含在现有的数据中心的监控范围之内,去扩展现有数据中心的监控广度。
Deepen:
在广度加强之后就要加强深度,实际上从深度的角度来讲,对于数据中心的监控应该抛弃以前只监控到服务器和TCP端口的方法,需要真正考虑的是任何一个主要的应用过程应该包含有多少个环节、每个环节之间互相是怎样的沟通关系、调用次数是多少、现在访问体验如何、如果出现了问题快速判断问题在哪儿等,或者做到代码级别的监控,以加深数据监控中心的深度。
Auto:
在听云数据中心,每天会有200亿条用户体验数据上传上来。通过实际访问的效果、可用性、延迟,甚至是访问带宽的价格去判断应该从哪儿去访问应用效果是***,成本是***,帮助去做外网用户的智能路由的管理。
[好、更好、***的移动用户体验]
在移动互联网时代,当前企业在构建未来的数据中心时,应该是以云端结构为基础。但是在云端结构里面,不能以传统的方法来进行数据中心监控。因为传统的监控方法并不能监控外部用户的体验以及传输、代码、真正的业务逻辑等。那么当以用户为中心时,又应该如何去监控?移动互联网发展到今天,已经给大家提出一个非常大的挑战,这就是如何做下一代的架构,如何改变现状。
听云一直以来都在为客户提供主动式服务,包括国内大事件、电商双十一的驻场,特别突发事件的速度判断,听云都会提供专家级别的服务。在对于时间的追求上,听云希望利用从客户端到后台全过程追查的全栈溯源的解决方案,能够帮助传统银行业去打造一个秒极时代的用户体验,去应对互联网,去应对云+智能终端的一个新环境。