携程网成功实施SiteView运维平台

网络
通过前期缜密的考察挑选,携程旅行网与游龙科技正式达成合作意向,签约并成功实施SiteView ECC综合系统管理,用于管理携程旅行网庞大复杂的IT系统。

【51CTO.com 综合报道】通过前期缜密的考察挑选,携程旅行网与游龙科技正式达成合作意向,签约并成功实施SiteView ECC综合系统管理(Enterprise Control Center),用于管理携程旅行网庞大复杂的IT系统。

项目背景:

携程旅行网创立于1999年,总部设在上海,目前已在北京、广州、深圳、成都、杭州、厦门、青岛、南京、武汉、沈阳等10个城市设立分公司,并在全国30多个大中城市设有分支机构,现有员工近9000人。作为中国领先的综合性大型旅行服务公司,携程旅行网成功整合了高科技产业与传统旅行业,被誉为互联网和传统旅行行业无缝结合的典范,并业已成为中国服务行业的成功企业样板,并且受到国家领导人温家宝、李克强等关注与参观。

凭借稳健的业务发展和优异的赢利能力,CTRIP于2003年12月在美国纳斯达克成功上市。Ctrip向全国2000万会员提供在线集酒店预订、机票预订、度假预订、商旅管理、特惠商户及旅游资讯在内的全方位旅行服务,他们日益增长的庞大业务量对IT运维管理提出了很高的要求。在这种情况下,Ctrip最终选择了 SiteView作为网络运营监控管理的服务供应商。

实施方案

建设SiteView ECC监控系统的目的,是为了能够利用一个统一平台实现对Ctrip的服务器主机、网络设备、操作系统、数据库、应用系统、网站系统等IT基础架构及关键业务系统的全面自动化监控和运营维护管理,从而实现对故障的实时发现和故障定位,提高工作效率,提供更好的运营保障,并能通过各类管理报表实时地了解整个系统的运行情况包括各项系统状态和性能参数数据,实现资源的合理分配和利用。

监控规模

Ctrip网络系统核心的众多的服务器和运行在服务器上的各种应用上的几千个关键指标纳入Siteview管理,关键的网络设备也有很多台,监测的应用不但包括标准的web基础组件,还包括相关的业务系统。

由于监控的设备数量非常庞大,为了提高监控的效率,采用了分布式部署的方式监控;分布式部署模式还能够帮助Ctrip轻松应对年均30-40%的扩容压力;系统采用B/S+C/S访问方式和非代理式数据采集模式,管理人员可以通过浏览器或者专用的Client端连接到监控中心服务器对整个系统进行监控和管理。

另外SiteView ECC通过数据接口实现了与Ctrip的后台系统的对接,可以在发现系统运行异常的时候,自动提交数据并根据异常现象的具体情况生成相应的工单从而转入下一步的修复维护阶段,最终实现IT运维管理自动化、系统化。

数据采集与呈现

SiteView ECC提供了几百种不同类型的监测器对Ctrip IT系统的性能指标数据进行自动采集。针对每一个监控指标,SiteView ECC都根据大量用户使用中累积的经验提供了缺省的监控频率和监控阀值,并可随时对这些指标进行监控频率和监控阀值的调整,提供了更为灵活的监控策略对整个IT系统进行监控。

SiteView ECC提供了丰富的数据呈现功能,能够让Ctrip运维人员实时快速定位故障点,在内部故障影响到用户前就能够及时处理。SiteView提供了统计视图、树形视图、拓扑视图三种数据呈现方式:

整体视图可以查看和管理整个监控结构和监测器的细节;树形视图可以过滤出所有错误或者危险的监测器进行集中管理;拓扑视图提供最直观的图形化界面进行整体状态监控。通过整体视图可以对服务器或者网络设备进行添加、编辑、删除,对于每一个监测器可以查看其监控的之前几个小时内的简单报告等操作。

在日常监控中,树形视图可以对整个监控系统中,发生故障的监测器进行过滤观察,做到只关心发生问题或者有故障的应用,服务器或者网络设备。同时Siteview提供了批量选择、批量修改、批量添加等细节功能,帮助Ctrip轻松应对几百台设备的选择、修改、添加等需求,体现了Siteview以人为本的理念。

报告系统

SiteView ECC的报表系统为Ctrip提供了多种形式的报表:统计报告、趋势报告、TOPN报告、对比报告、时间段对比报告。统计报告,关于一段时间内的监控指标的统计信息;趋势报告,体现任意指定时间段里的性能指标的变化趋势,以便对系统负载做一个评估;TopN报告,列出同一类型监测指标中的前N项排序表。通过TOP N报表可以很容易的将数据排序输出,根据排序方式的不同可以查看到各类系统资源的分配和利用情况。

根据Ctrip的实际需要,利用统计报告制作了适合运维管理的各类报表,对所有的服务器和网络设备的监测指标按需求统计信息。对整个IT设备的监控指标进行TopN排序,如服务器的CPU、内存,网络设备的流量等,对于分析Ctrip的IT运维情况起到了很好的效果。

在趋势报告中,可以看出设备的某一监测器在一段时间内的运行趋势,方便了对于服务器或者网络设备的历史数据的查看和故障信息的排查。

报警系统

根据实际情况,采用颜色报警和Email报警两种报警方式。颜色报警是通过SiteView ECC Client端,在统计视图或树形视图中对系统的监控,如果有危险或者错误的信息,即显示黄色或者红色的报警图标。Email报警是系统有危险或者错误之后,以邮件的形式将故障信息发送给相应的管理人员,并通过Ctrip ITSM系统的接口,实现了监控系统与ITSM系统集成,从而实现了在报警的同时自动生成工单的功能。

SiteView ECC在Ctrip部署后的效果

目前SiteView ECC系统已经做为Ctrip IT运营系统的一部分正常运行且达到了良好的效果,通过基于SiteView ECC的IT运维管理系统的部署,可以供近百人的运营团队利用SiteView平台进行协同工作,一起对Ctrip庞大的IT基础架构进行监控,进一步提高了Ctrip IT系统的管理、监控维护水平。

Ctrip的全部服务器和核心的网络设备纳入了SiteView ECC系统的监控范围。SiteView ECC对服务器、网络设备的性能、故障以及Ctrip的业务系统进行了监控。并做到了发现危险或者故障时候实现7*24实时报警,并完成与Ctrip 后台系统的对接。同时设置了对所有的监测器自动或者手动的生成各种各样的报表,做到了对监控系统的有据可查,并对IT运维的运行健康情况进行分析,为系统的进一步优化及升级扩容提供了数据支持。

SiteView ECC提供了方便友好的操作界面,使得Ctrip的所有运维人员都能够很轻松地熟悉和掌握监控系统的操作和使用,这样一来,使得原来一些复杂的、需要很高的技术和技巧的工作,都融合到了一个统一的平台上,让一般的操作人员也能够完成复杂的运维工作,同时,SiteView提供了自动化的工作方式来替代原来需要消耗较多人力的手动系统巡查工作,节约了大量的人力。

SiteView ECC的部署使得Ctrip的运维人员可以在日常的运维工作中及时发现故障,避免系统的正常运行受到影响。同时系统发生异常时,SiteView ECC提供的系统监控数据,可以帮助运维人员快速定位和排查系统故障,从而大幅降低运营风险。

SiteView ECC提供的多种报表,为Ctrip IT系统的优化和升级决策提供了非常有效的数据支持,根据这些报表提供的数据,Ctrip可以对众多IT资源进行合理再分配和优化,充分挖掘现有IT资源的潜力,有效保护在IT资源上的投入;同时也能够更有针对性地对IT系统进行升级,全面提升IT系统的整体运营效率。

可以说SiteView ECC的部署不仅大大提高了Ctrip的运维工作效率和质量,而且还从侧面提升了Ctrip的用户满意度和行业口碑,从而增强了企业竞争力。

责任编辑:许凤丽 来源: 51CTO.com
相关推荐

2009-04-27 16:32:20

2022-10-20 17:37:46

运维智能管理平台

2009-03-18 10:00:27

电子政务运维管理广通信达

2023-09-26 08:00:39

2015-01-27 09:37:19

DevOpsIT运维开发

2023-09-28 08:01:41

2018-09-18 09:36:52

运维数据库智能

2014-03-12 15:04:08

资产管理系统cmdb自动化运维

2018-06-13 09:56:14

运维智能无人化

2017-09-26 11:04:04

运维管理平台

2013-09-27 17:29:16

清华大学IT运维RIIL

2023-10-10 07:43:15

2016-12-13 13:15:49

运维

2012-04-10 15:11:26

2019-03-19 08:41:38

Linux运维变更

2018-04-12 09:46:12

DevOps运维建设

2022-05-15 23:25:11

容器云平台运维架构

2010-01-27 09:33:40

结对编程

2022-02-23 08:00:00

开发DevOps技术

2009-12-08 13:49:35

BTNM
点赞
收藏

51CTO技术栈公众号