企业如果希望监控云应用,需要收集有关性能、成本和安全性的指标。企业IT团队及其选择实施的工具需要协调工作。
云计算应用程序监控是一项多学科的工作。为了优化基础设施,管理人员和开发人员必须实施几种不同类型的云应用程序监控措施,其中包括检查性能、开销和安全性。更重要的是,其中一些监控学科包含子学科。
为了使问题更加复杂,需要以特定的方式监控不同类型的云计算应用程序或服务。例如,监视无服务器功能需要一种不同于监视虚拟服务器上运行的应用程序的方法。
为了制定一个云计算应用程序监控策略,需要探讨主要的监控类型,它们如何应用于各种类型的应用程序和云计算服务,以及哪些本地工具和第三方工具可用。
云计算监控的关键类型
云计算监控可以分为三个重要但重叠的类别:
- 性能监控。这种类型的监控旨在确保云计算应用程序可用,并且它们可以充分运行。其目的是识别和诊断可能削弱性能的各种类型的问题,范围从基础设施问题(例如缺乏网络带宽)到配置问题(例如无效的负载平衡设置)到应用程序错误。
- 成本监控。在云中,资源的低效使用会迅速产生大量成本,因此监控成本尤为关键。因此,云计算成本监控已成为其自身的一门学科,其中包含各种专用于成本优化的工具和策略。
- 安全监控。安全监控在任何情况下都很重要,但在云中执行可能尤其具有挑战性。这不仅是因为云计算环境通常由多个重叠的基础设施和软件层组成,而且因为云计算在公共和专用网络之间没有提供硬边界。
这些类别的云计算监控以各种方式重叠。例如,安全监控包括识别分布式拒绝服务(DDoS)攻击,这也会威胁到应用程序的可用性和性能。它们还涵盖了优化云计算应用程序性能、成本和安全性所必需的其他几种类型的监视,例如数据库监视和日志监视。因此,云计算监控的类型应该被视为云计算应用程序监控的重叠学科,而不是整齐明确的监控类型。
同样,值得注意的是,尽管上述三种监控类型的主要责任通常都落在不同类型的IT员工身上,但最好的云计算监控策略使所有类型的监控都成为一项集体努力。例如,安全监控可能是安全专业人员的主要职责,但其他IT管理员和开发人员也需要参与帮助识别和响应安全问题,以便快速解决这些问题。
同样,成本监控应该是IT组织内每个人的关注点,因为以任何方式监控云计算的任何人都可以帮助识别和解决云中的浪费或效率低下的流程。
构建云计算监控策略
在许多情况下,本地工具不足以进行适当的云计算应用程序监控。
要执行每种类型的监视,IT团队应审查特定的指标和信息。这不是一个全面的列表,但它提供了一些团队应该寻找的真实示例。
重要的是,这些指标还强调了监控策略根据团队部署的特定云计算工作负载而变化的方式。例如,当运行基于云的虚拟机时,企业需要查找的信息类型与监视无服务器应用程序所需的信息类型非常不同。
各种指标和信息来源有助于绩效监控,其中包括以下内容:
- 资源可用性。企业部署并运行的云服务或实例是什么?如果虚拟机意外关闭,或者数据库不再响应请求,这些可能表明云计算应用程序性能问题迫在眉睫。
- 响应时间。云计算资源响应请求需要多长时间?响应缓慢可能是因为资源本身缺乏快速响应的计算能力或内存,或者网络带宽不足可能是根本问题。
- 应用程序错误。企业的云应用程序产生了多少错误?这些错误的根源是什么?根据运行的应用程序类型以及这些应用程序记录错误的方式,跟踪此信息的能力会有所不同。例如,无服务器功能生成的日志数据相对较少,而在虚拟机中运行的传统Web应用程序将生成更多的日志数据。如果企业使用的云计算服务提供对错误信息的访问,那么操作系统日志也是错误信息的重要来源。
- 流量水平。在给定时间内有多少用户访问企业的云计算服务或应用程序,流量模式随时间的变化如何?如果流量突然激增,企业是否准备扩大云计算资源分配以满足需求?
要跟踪和优化云计算成本,请查找未使用的资源。正在运行但未被主动使用的虚拟机实例,云计算数据库和其他资源是云中成本效率低下的常见来源。企业确定并关闭这些资源,团队还可以考虑将工作负载迁移到不同类型的体系结构,例如无服务器,这要求企业仅在服务处于活动状态时才付费。
另一个需要关注的领域是虚拟服务实例优化。大多数云计算提供商允许用户从数十种虚拟机实例类型中进行选择。当企业能够确定哪一个对于给定工作负载而言最具成本效益时,将不太可能超支。此外,用户应尽可能利用折扣实例产品(如保留实例)。
当然,安全性是云计算应用程序监控中的一个重要考虑因素。团队为支持云计算安全而收集的信息类型将根据他们部署的工作负载及其面临的威胁而有很大差异。但总的来说,大多数云计算安全监控策略都将重点关注以下方面:
- 身份和访问管理。必须正确配置身份和访问管理(IAM)策略,以防止对云计算资源和服务的意外访问。如果企业使用它们,容器将需要以最大限度地隔离它们和主机的方式进行配置。例如,确保阻止容器以root身份运行。
- 漏洞检测。部署在云中的代码——无论是在虚拟机、容器、无服务器功能还是其他方面,查看是否正确扫描了已知的恶意软件签名?
- 运行时异常检测。应监控在云中运行的应用程序和服务是否存在异常行为,这可能表示存在违规行为或企图违规行为。
- DDoS攻击。 DDoS攻击通过向云计算应用程序发送大量请求而使云计算应用程序崩溃,对云计算安全和性能都构成威胁。IT团队应使用云计算提供商的工具(如AWS Shield)来缓解DDoS攻击,同时还应监控表明正在尝试此类攻击的网络流量模式。
云计算应用程序监控工具
在云计算提供商提供的本机监控工具(如Azure Monitor和AWS CloudWatch)和第三方监控产品之间,可以轻松构建云计算监控工具集。
大多数组织将使用其云计算提供商或提供商的本机工具作为执行所有类型的云计算监控的基础。但是,在许多情况下,本机工具还不够。添加第三方监控平台是明智之举,该平台可以获取CloudWatch等工具收集的数据,并帮助团队更有效地分析和可视化。许多这些第三方工具包括应用程序性能监视(APM)平台。有些具有安全信息和事件管理(SIEM)平台,可以分析来自云端的数据以发现安全事件。
有效的云计算应用程序监控是一项复杂的工作,需要企业从多个角度进行监控。整个IT团队需要做出贡献,部署各种工具和策略来收集指标,从而全面了解云计算应用程序的性能、成本效益、安全性。