2018再迎运维新挑战 三位大咖告诉你如何实现智能运维

原创
网络
6月30日,虽然午后骄阳似火,但是由51CTO 主办的第二十一期Tech Neo “运维新挑战”技术沙龙的“上座率”依然爆棚。来自一线的三位运维专家,与在座的一百多位IT专业人士,共同分享了他们在基于容器的持续集成和发布、智能监控和故障自愈、成本和性能优化几个方向上的实践和思考。

【51CTO.com原创稿件】在云计算遍及业界的趋势下,以及 DevOps 和 SRE 等先进运维理念的强势助推中,运维创新已然成为驱动各大公司研发运维流程和理念变革的关键角色,如持续集成和发布、场景化的运维自动化、智能监控等理念的落地执行。同时,运维所从事的工作角色定位也在悄然地发生着变化,从原来的末端被动响应,逐步转向技术产品、技术运营和平台建设者的角色。

  6月30日,虽然午后骄阳似火,但是由51CTO 主办的第二十一期Tech Neo “运维新挑战”技术沙龙的“上座率”依然爆棚。来自一线的三位运维专家,与在座的一百多位IT专业人士,共同分享了他们在基于容器的持续集成和发布、智能监控和故障自愈、成本和性能优化几个方向上的实践和思考。现场讨论环节非常火爆,专家的演讲也干货满满,直戳运维痛点,台下时不时爆发出会心的笑声。

[[234662]]

  新浪微博于炳哲:基于实时日志收集系统在运维领域的实践

[[234663]]

  于炳哲是新浪微博部门日志系统负责人,在日志处理领域有5年的实践经验,负责新浪微博手机微博产品部移动服务保障部的日志系统的维护。

  在演讲中,于炳哲先向大家介绍了新浪手机微博MAPI日志架构,然后他从实践的角度给大家展示了如何利用这套架构进行链路监控、从客户端角度对服务端进行性能分析、客户端视频多维度间的计算,以及ES实时API服务、成本核算等操作。

  当然,于炳哲也分享了技术团队在工作中遇到的问题并一一给出解决办法,如日志丢失问题、ES集群监控问题、ES服务器质量不均衡问题,以及Rsyslog中转到Kafka队列的架构迁移、Kafka的监控与管理等。以ES服务器质量不均衡问题为例,技术团队首先根据不同机器的回归负载情况对机器上的分片进行预迁移,然后根据业务不同进行预分布,保证独立资源服务独占自己的资源池,共享用户使用公用资源。

  Qunar吕晓旭:去哪儿网运维平台从0到1的演进

[[234664]]

  吕晓旭是去哪儿网实时系统负责人,也是Qunar运维开发总监。他主要负责Qunar的数据流基础设施建设和维护工作。曾供职于中国雅虎和淘宝网,主要工作是Etao网数据抓取和网页分析工作。

  吕晓旭和大家介绍了去哪儿网的的实时数据平台-Prism。Prism是以数据可视化为出发点,以降低数据和数据分析软件获取成本为己任的实时数据平台。通过这个平台,人们可以进行日志实时监控(ELK)、数据总线(Kafka)、数据实时分析(Spark Streaming/Storm/Flink)、数据存储(Elasticsearch as a Service)、OLAP/试验平台(Zeppelin+Spark/Flink)。

  那么这个Prism运维平台经过了哪些演进阶段呢?他表示,当docker、MARATHOM、MESOS这些技术出现,他们像发现新大陆一样兴奋,利用这些技术,他们让系统可以快速增减容量,而且还可以实现新工具快速支持、提高硬件资源利用率、降低数据软件的使用成本。吕晓旭在现场非常详细地介绍了这些技术如何帮助平台演进,以及在这些过程中遇到了哪些问题。

  演讲最后,吕晓旭总结道,他和技术团队做的事情就是解决数据软件的部署的门槛,解决Mesos环境部署的门槛。目前仍然存在负载不均衡、数据异常定位速度慢的现象,他计划下一步先解决这两个问题,然后接入新软件,进行GPU计算平台建设。

  中油瑞飞孙杰:大型企业智能运维的探索和实践

[[234665]]

  孙杰是从业十几载IT老兵了,专注于系统、数据库、云计算和智能运维管理,参与实施数据中心建设、私有云架构规划及运维管理、大数据挖掘等相关工作,IT行业的实践者、布道者。

  在一开场,孙杰就指出,传统运维软件逐渐不适应运维需求,如数据分散、重复采集、浪费资源等。他认为运维应该持续升级,从传统的“以设备为中心的维护”升级到“以数据为中心的运营”,“虽然现在大多数企业的运维是以人工运维为主,辅以开发工具和少量的自动化运维,但是我相信未来智能运维才是主流发展趋势。”

  在演讲中,孙杰描述了自己理想中的智能运维状态,无论云上云下,保障业务系统稳定运行都是最重要的工作。他列出了三个要点:一通过部署智能运维系统,能够显著提升运维效率,大大增强运维团队的能力和价值;二通过部署智能运维系统,能够显著增加运维透明度,使管理和运维人员增加主动权和掌控力;三通过部署智能运维系统,能够显著降低故障频率,使运维更省心。

  随后,孙杰从实践角度分享了全景业务服务管理、日志采集监控告警、知识库故障自治等场景运维问题。由于他讲的全是实际工作中遇到的问题,所以引起了很多听众的共鸣。演讲结束后,很多听众争相提问,现场交流气氛极为热烈。

  51CTO于2016年开始举办主题为Tech Neo的技术沙龙,意指在于为IT技术人员提供一个高质量的学习交流的线下平台,目前仅限北京地区,周期为每月1次,每期围绕一个话题进行探讨,涉及人工智能、大数据、云计算、区块链、物联网等多个技术领域。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:周雪 来源: 51CTO
相关推荐

2018-12-17 19:13:43

WOT人工智能数据处理

2021-06-07 22:09:46

办公

2013-05-06 15:10:18

IT运维管理大数据

2019-10-22 13:54:19

人工智能日志运维

2019-01-03 14:23:48

人工智能人机智能业务创新

2018-08-07 09:26:47

新华三

2018-07-16 09:00:06

Ceph运维开源

2019-09-28 23:17:41

zabbix运维监控

2013-03-29 09:15:08

IT运维运维人员运维工程师

2018-02-01 11:20:17

技术门诊

2018-06-13 10:36:49

ARWOT

2011-01-18 13:41:40

运维法则

2020-06-30 09:35:25

智能运维云架构IT运营

2018-05-29 15:05:25

WOTOpenStack

2018-03-27 16:23:53

运维AI智能

2022-10-20 17:37:46

运维智能管理平台

2015-09-30 11:45:30

自动化技能运维

2014-12-29 16:38:28

德讯科技IT运维数据中心

2015-10-29 14:48:13

云运维监控工具开源
点赞
收藏

51CTO技术栈公众号