云监控服务可以收集提供商的生态系统里面服务器、存储系统及其他服务的一系列性能数据。遗憾的是,这些工具拥有的网络监控功能常常很有限,这就意味着它们发现不了你的云环境中的严重性能问题。为了密切关注你的网络,并且发现潜在问题,应该使用成熟可靠的网络监控工具,以便跟踪并报告性能方面更深入的数据。
网络监控工具分为三个类别:基本监控、可视化及报告以及高级的异常检测。先进的产品拥有涵盖多个类别的功能特性。但是如果你关注可视化或高级的异常检测和安全,不妨特别留意单个产品中的那些功能特性。
能完成任务的基本的网络监控工具
Nagios是一款开源网络监控工具,它一向以用起来难度大而著称,不过功能也很全面。它可以捕获网络协议,监控网络服务,并且通过短信、电子邮件或执行自定义脚本来生成警报。报告模块详细地记载了以往的服务停运事件以及这些停运事件的应对措施。
对于想要Nagios的监控功能,但是又不需要管理方面学习新知识的那些用户来说,基于Nagios的第三方实用工具也许是合适的选择。借助Opsview Ltd.等公司提供的服务,你就能获得先进的功能特性、服务支持以及几种不同的方案:从免费的开源核心方案到企业级方案,不一而足。后者包括统一仪表板、企业报告以及多台分布式主服务器整合数据的功能。
面向IT基础设施(包括网络监控)的另一种开源方案来自Zabbix ISA。借助Zabbix监控工具,管理员就能够收集服务器和网络设备方面的详细的度量指标。它提供了可视化功能,可以显示采用易于评估的格式的大量数据。代理能够实现分布式监控,并且同时提供了基于代理的监控方案和不需要代理的监控方案。
分析大量数据的可视化工具
网络监控服务面临的挑战之一在于,它会生成大量的数据。报告工具可以对数据进行过滤并整合处理。可视化可以整合大量数据,并且清楚地呈现数据,从而显示存在的显著关系。
说到可视化,云管理员可以想使用PRGT之类的开源网络监控工具,这种基于RRDtool而建的工具可用于数据日志和应用程序绘图。Paessler为PRTG提供了商业支持。Cacti是另一种基于RRDtool的可视化工具,可以从AWS Marketplace合作伙伴JumpBox处获得。Cacti包括一个界面,可以支持图形模板和多种数据采集方法。
提高更高级网络监控的异常检测
不过,光靠可视化手法并不总是够用。网络流量中的一些模式比较细微。比如说,平均流量模式方面的变化可能表明有问题,但是在典型的管理报表和可视化图表中并不显示出来。这就需要采用异常检测手法。异常检测应用软件可以识别偏离预期范围的网络行为,从而提供更高级的抢先式监控。
异常检测对需要应用程序和网络性能一致的服务来说很重要。成功的营销活动会给网络带来访问量激增的情况。即便部署了负载均衡系统,客户访问还是有可能存在延迟增加的问题。像Numenta的Grok这些工具就能识别访问量激增及其他异常现象。
理想情况下,如果启用了自动扩展功能,你的应用程序就会自动为起用集群添加节点,从而处理增加的负载。诸如Grok之类的工具就能识别潜在的性能问题,让系统管理员能够手动添加额外的服务器,或者确保自动扩展机制能够积极应对增加的负载。