云网管:大规模服务器监测破局

企业动态
在传统IT运维解决方案中,如何进行监测服务器的扩容是最大的难题之一,而“云网管”技术将虚拟化引入到了监测服务器系统,有望为解决这一难题提供新的途径。

【51CTO.com综合报道】在传统IT运维解决方案中,如何进行监测服务器的扩容是***的难题之一,而“云网管”技术将虚拟化引入到了监测服务器系统,有望为解决这一难题提供新的途径。

网络运维管理发展之困

在目前的网络运维管理实践中,随着用户业务的不断发展以及数据中心建设的不断扩大,用户要监测的网络设备规模越来越庞大、投入监测服务器的成本越来越高。用户的运维管理实践在不断发生变化,运维管理软件市场已经由对单一工具集产品的需求转变为对完整解决方案的需求。用户越来越需要一场新的技术变革来突破当前所面临的挑战和困局。

美信科技(以下简称“MXsoft”)技术总监陈新刚说:“在这样的背景下我们推出了全新的 CreCloud云网管(以下简称‘CreCloud’)完整解决方案。其设计原理可以简单概括为:将多台普通监控服务器虚拟为一台计算能力强、运行稳定的大型监控服务器,帮助用户在低成本的情况下,实现对大规模服务器和网络设备的监控。CreCloud作为一个完整的解决方案,从根本上革命性的解决了传统网管产品所无法解决的种种问题。”

问题一:传统网管产品的监测能力和庞大的网络规模之间的矛盾

陈新刚认为:“在我们熟知的网管领域中,不管是简单还是复杂,传统网管产品都是以单套部署的原理来工作。即一套产品只能安装在一台监控服务器上,这种模式有一定的局限性,其监控能力和规模都受限于这台监控服务器的性能。当被监控规模超过这台服务器监控极限时,用户不得不再购买一套产品,安装在另一台监控服务器上,对超出部分的被监控对象行进监控。同时,还需要对用户、权限和预告警数值等参数重新设置。这无疑会大大增加人力、物力上的成本。监控的目的是为了提高工作效率,多套传统网管产品的部署在解决问题的同时却大大增加了对管理工作的复杂度。所以传统网管产品对于大范围的网络监控往往力不从心。而目前,有很大一部分的用户需要监测的设备越来越多,比较典型的是门户网站、网游公司和类似中石油这样的大型工业企业,动辄就要监测上千台服务器。传统网管软件已渐渐无法满足这类大中型规模企业的需求了。”

问题二:传统网管产品的运行机制和高品质监测需求之间的矛盾

传统网管产品大多采用单套部署的方式,这样网管产品本身容易形成单点故障,一旦由于网管产品本身的原因(Java或者.Net编写的网管产品在高负载时容易出现不稳定或者占用系统资源太多的情况)或者安装服务器的原因(比如掉线、宕机等)而发生故障时,所有的监控任务都会无法进行。这是过去几年中几乎每一个行业用户都会提出的问题,“网管产品对IT和网络进行监控,那么如何保证它们自身的安全运行呢”?

问题三:传统网管产品的不可扩展和未来监测扩容之间的矛盾

传统网管产品由于采用单套部署的方式,当监测容量达到软件自身的限制时,比如监测服务器和网络设备达到100台时,性能就会大幅下降,当达到500台时,就会保持极限运行,随时都有发生故障的可能。目前国内的许多行业客户都在大力发展信息化建设, IT业务处于快速增加之中,设备和应用轻松就会达到上百个,这样当监测需要扩容时,网管产品却出现了瓶颈,不能随着IT网络的扩容而自适应增加管理能力。 如果实现监测扩容,就需要新增加一套或者多套网管产品,这样管理的效率问题就随之而来。

除以上问题外,传统网管产品还面临着其它问题,比如对网管服务器的硬件要求过高从而容易加大用户的成本,不能有效利用用户的闲置服务器帮助用户节省资源,都以工具或者工具集的形式出现,无法成为真正的完善的解决方案等。

“云网管”解决之道

随着新型的互联网和IT应用层出不穷,用户的数据中心越来越大,服务器和网络设备的数量越来越多,这些海量设备的存在为运维管理提出了新的挑战。陈新刚表示:“为了从根本上解决以上网络运维管理所面临的困境,美信将云计算的概念引入到这个领域中,推出了CreCloud 云网管产品。云计算有两个最根本的特征:虚拟化和动态扩容,在CreCloud的产品设计中,我们充分地体现了这两个特征,CreCloud通过把多台服务器的监测能力虚拟成一台超级服务器,实现了虚拟化监测。当数据中心的服务器和网络设备增加时,CreCloud通过增加‘监测云’中的服务器来实现动态扩容” 。

以往当需要对大规模服务器进行海量监测时,传统的方法是使用多台性能配置高的硬件服务器,部署多套网管产品来分割进行。而现在应用CreCloud 的“云管理”技术,用户可以将多台PC Server进行虚拟,构建出一个性能强劲的虚拟服务器,CreCloud完全满足了用户对大规模监测的稳定可靠性、持久安全性、灵活扩展性的需求。

CreCloud的工作原理见图一

 

图一

如图一所示,CreCloud云网管主要创新成就包括如下几个部分:

中央控制器(Central Control Unit,简称CCU),是CreCloud云网管的大脑,主要负责协调、管理、分配众多的任务管理器和实时数据库,实现云管理方案中的各项功能。

TaskDispatcher任务管理器,主要负责调度管理由CCU中央控制器分配过来的监测任务,通常情况下,一个TaskDispatcher任务管理器可以完成对1000台服务器(或者网络设备)的监测。如上图所示,TaskDispatcher任务管理器所管理下的监测服务器组成监测云,完成对大规模设备的海量监控。该监测云具备动态监测负载均衡、多机容灾备份、监测服务器热插拔等众多功能。

RealDB实时数据库,主要实现对海量监测数据的实时存储和报表数据的生成。

在陈新刚看来:“用户的核心需求是管理设备,而不仅仅是购买工具。由于CreCloud可以使主控机实现双机热备和虚拟可动态扩容,两台主控制台服务器组成高效的‘主’—‘备’模式,‘主’服务器和‘备’服务器之间通过‘智能心跳’技术实时关联,一旦主控制服务器宕机,备份服务器马上启动执行任务。不但解决了用户目前7*24小时的不间断监测需求,也为用户未来系统扩容的需求做好了准备。”

在部署方面, CreCloud提供了真正意义上的分布式部署,实现了在不同工作区域一套管理软件、一套配置、一套报警,构成了强大的虚拟后台和简洁的前台呈现。陈新刚强调:“其实云网管可以提供给用户的不仅仅是一套工具,而是一整套解决方案。网络运维管理的主要瓶颈之一就是数据库分析这一层,能否把监测采集到的数据进行快速存贮和精准分析是衡量网络管理系统优劣的重要指标。MXsoft通过自主开发数据库与用户指定数据库相结合,满足了不同客户对监测数据的存储需求,既可以将数据存在用户指定的数据库中,同时也可以在自己的数据库中进行备份。”

另外在报警形式上采用了比较多样化的手机短信和声音报警相结合的方式。一旦出现性能故障或性能指标达到报警标准,警报便会通过界面颜色显示、声音、邮件、手机短信息等方式自动发送,及时通知相关管理人员在故障发生前及时消除故障隐患。

据介绍,这种“云网管”技术所面向的用户群体是比较高端、拥有大量服务器的用户,MXsoft已经瞄准了例如门户网站、网络游戏和大型国企、电信等多个领域,准备发力。陈新刚还透露,明年可能会发布CreCloud的日本版和英文版,进军海外市场。在谈到网络运维领域未来的技术趋势时陈新刚自信地指出,“越是听上去简单易懂的技术,越需要深厚的积累和复杂的工作。云网管是一个势在必行的趋势。因为目前面对大规模服务器监控,传统网管产品已经无法满足需要。所以我们对这个市场的前景充满信心。”

责任编辑:林琳 来源: 51CTO.com
相关推荐

2010-07-05 14:24:31

云网管运维管理美信科技

2009-01-09 23:13:00

2013-05-02 11:48:26

2013-04-07 13:58:00

2017-03-07 20:47:04

NaplesAMD

2011-12-02 16:56:23

美信云网管

2015-08-18 15:37:48

戴尔云计算anycloud

2017-08-25 14:57:54

新华三服务器HPE

2023-01-03 08:05:00

无服务器扩展架构

2010-04-23 15:07:08

云计算

2010-08-26 10:40:38

DHCP服务器

2015-06-25 17:24:26

IDC云服务公有云

2012-02-13 23:46:22

keepalived高可用

2020-05-09 15:36:34

服务器运营商采购

2012-10-11 09:08:21

E5-4600服务器新品英特尔

2011-05-27 10:38:44

x86ERP小型机

2017-09-15 13:29:16

曙光服务器

2013-04-27 17:20:33

2020-07-14 13:17:23

GitHub宕机服务中断

2010-07-15 09:53:02

云计算计算网络
点赞
收藏

51CTO技术栈公众号