【51CTO.com原创稿件】七年一剑,华丽蜕变。自2012年起连续6年15场峰会,凝聚大量技术专家,博观而约取,厚积而薄发。2018WOT全球软件与运维技术峰会扬帆起航,围绕12大核心热点,汇聚海内外60位一线专家,打造高端技术盛宴!在5月18-19日的2018WOT全球软件与运维技术峰会上,阿里巴巴高级技术专家程超先生将为广大技术同仁带来题为《构建超大规模的秒级监控平台》的精彩演讲。
程超先生拥有近十年的运维系统开发经验,现任职于阿里巴巴基础设施事业群,负责阿里巴巴集团的监控平台建设。主导构建了***代的阿里巴巴CMDB系统。近几年专注在监控领域,现在负责的监控平台覆盖了阿里巴巴的所有事业群。具有构建大规范,分布式监控系统的研发经验。
阿里巴巴高级技术专家程超
阿里巴巴三代监控系统的演进
在去年的双11全球购物狂欢节中,天猫全天交易额1682亿元,交易峰值32.5万/秒,承载这些秒级数据监控的是阿里巴巴第三代监控系统。回顾数据监控平台的演进历程,程超先生给予了概括性的描述:***代监控系统主要是基于开源系统搭建的,很快就碰到了稳定性和规模化的问题;第二代监控系统解决了稳定性和规模化应用的问题,但范围主要定位在系统,应用层面的监控,缺少链路,业务等关键点的监控;第三代监控系统主要面向dev Ops的监控系统,重点关注智能化,标准化,业务全链路等全新的业务要求。
稳定性是考察监控系统最重要的指标
程超先生坦言,监控系统最重要的基础就是自身的稳定性。团队在不断的实践和试错中改进,形成良性循环。要确保监控系统的稳定性,就需要建立一个自身监控+演习常态化的反馈机制。自身监控的问题解决相对简单,阿里巴巴早期时用开源的监控系统来监控自己的监控系统,后来逐渐衍变为自己监控自己的系统。这样的优势在于,自己就是用户,能不断的在使用过程中去优化产品体验。
所谓的演习常态,就是阿里巴巴自身特有的监控机制,通常以月为单位,定期演习各个模块在故障中(比较机房断网,日志量突增,CMDB数据同步异常)的表现。除此之外,还要在线上跑实时回归,不断的去校验数据,保证每次变更后不会有逻辑上的错误。
监控系统的三个发展趋势
作为监控平台开发领域的专家,程超先生基于自己的工作领域,对监控平台的发展趋势有着深入的理解。他认为,在阿里巴巴集团这个大规模的场景中,监控系统的发展会有几个方向:其一是标准化,需要预先定义标准化的指标,模板。实现标准化的目标是降低基础监控的门槛,为智能化提供数据基础。其次是一体化,包括横向、纵向的打通监控数据,以业务为核心来组织所有纬度的数据,一体化的目标是展示业务全貌,缩短故障定位的时间。***是智能化,这个方向能探索的可能性是最多的,其目标是使监控系统成为运维大脑,最终实现无人值守。
想要了解更多?5月18-19日,北京粤财JW万豪酒店,全球最值得关注的IT技术盛宴与您不见不散。2018WOT全球软件与运维技术峰会一定是您发现全新思路、挖掘***思想、拓展人脉的重要平台。
目前我们的各项票种已全面发售。需要提醒您的是,购票越早,折扣越大!与KOL零距离交流,呈现不一样的"英雄盛宴"!
点击官网了解详情:wot.51cto.com
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】