混合云环境实现K8S可观测的6大策略-51CTO.COM

作者 | Savan Kharod

编译 | 徐杰承

2023年，原生云应用及平台发展迅猛。大量企业都在努力发挥其应用程序的最大潜力，以确保极致的用户体验并推动业务增长。

混合云环境的兴起和容器化技术(如Kubernetes)的采用彻底改变了现代应用程序的开发、部署和扩展方式。

在这个数字舞台上，K8S是大多数云原生应用程序和工作负载的首选平台，这个流行的开源工具有助于容器编排和发现、负载平衡和其他功能。根据一份报告，96%的公司目前已在其云系统中使用或正在评估K8S的实施。

图片

然而，随之而来的是一系列新的挑战。随着应用程序复杂性的增加，对有效的可观测性解决方案的需求也在增加，这些解决方案使企业能够深入了解其容器化的工作负载，也是混合云环境中管理和优化容器化应用程序的一个重要前提。

本文将深入K8S的可观测性，探索六种有效的策略，这些策略可以让企业在混合云环境中释放其容器化应用程序的全部潜力。

1、使用集群日志记录与日志聚合

为了深入了解分布式系统，集群日志记录是一个基本策略。在K8S环境中，应用程序会跨越多个容器和节点，因此收集和分析各种来源的日志就变得至关重要。

集群日志记录包括将不同组件的日志整合到一个易于访问的位置。集群日志记录的重要性在于它能够提供系统行为和性能的整体视图。

利用K8S集群日志，您可以关联事件并识别K8S集群中的模式，从而实现高效的故障排除和故障原因分析。

想要在K8S中实现集群日志记录，您可以利用强大的日志聚合工具或云原生解决方案，如亚马逊观测日志或者谷歌云日志。这些工具提供了可扩展且高效的方法来收集、存储和分析来自 K8S 集群的日志。

2、利用分布式追踪实现端到端可见性

在微服务分布在多个容器和节点上的复杂 K8S 环境中，了解不同组件之间的请求和交互流很具有挑战性。这就是分布式追踪发挥作用的地方——在请求遍历各种服务时提供对请求执行路径的端到端可见性。

分布式追踪允许您追踪请求从入口到接触的所有微服务的流程，从而捕获有关每个步骤的宝贵信息。通过使用追踪库或代理检测应用程序，可以生成追踪数据，以显示每个服务的持续时间、延迟和潜在瓶颈。

在 Kubernetes 中利用分布式追踪的好处是非常显著的。

首先，它可以帮助您了解服务之间的依赖关系，从而实现更好的故障排除和性能优化。当请求出现延迟或错误时，您可以快速确定出现问题的服务或组件并采取纠正措施。

其次，分布式追踪允许您测量和监视各个服务及其交互的性能。

通过分析追踪数据，您可以识别性能瓶颈，检测低效的资源使用情况，并优化系统的整体响应能力。这些信息对于容器规划和确保 Kubernetes 环境中的可扩展性非常重要。

对企业而言，可以选择一些流行的分布式追踪解决方案。这些工具为有效收集和可视化追踪数据提供了必要的工具和基础设施。通过将这些解决方案集成到您的K8S部署中，可以全面了解您的微服务行为，并推动持续改进。

3、将K8S与APM解决方案集成

为了在K8S中实现全面的可观测性，有必要将您的环境与应用性能监控(APM)解决方案进行集成。APM解决方案提供了超越传统指标和日志的高级监控功能，能够洞察各个应用程序组件的性能和行为。

APM集成的主要好处之一是能够检测和诊断K8S应用程序中的性能瓶颈。

借助APM解决方案，您可以在请求通过各种服务时对其进行跟踪，并确定高延迟或资源冲突的区间。有了这些信息，就可以采取有针对性的措施来优化关键路径并提高应用程序的整体性能。

许多APM解决方案提供专门的K8S集成，简化了对容器化应用程序的监控和管理。这些集成提供了预配置的仪表板、警报和工具库，简化了K8S环境中APM数据的捕获和分析。

4、使用基于指标的监控

基于指标的监控构成了K8S中可观测性的基础。它包括收集和分析关键指标，这些指标提供了对您的K8S集群和应用程序的健康、性能和资源利用率的洞察。

谈到Kubernetes中基于指标的监控，有几个基本组件需要考虑:

节点级指标:监控Kubernetes集群中单个节点的资源利用率对于容量规划和基础设施优化至关重要。CPU使用率、内存使用率、磁盘I/O和网络带宽等指标有助于您识别潜在的资源瓶颈，并确保最佳分配。

Pod级指标:Pod是Kubernetes的基本部署单位。通过监控与pod相关的指标，您可以评估它们的资源消耗、运行状况和整体性能。关键的pod级指标包括CPU和内存使用情况、网络吞吐量和请求成功率。

容器级指标:pod中的容器封装了单独的应用程序组件。监控容器级指标有助于您了解特定应用程序服务或流程的资源消耗和行为。CPU使用率、内存使用率和文件系统使用率等指标提供了对容器性能的洞察。

特定应用指标:根据应用程序的需求，您可能需要监控特定业务逻辑或领域的定制指标。这些指标可以包括交互率、错误率、缓存命中率或其他相关的性能指标。

图片

5、自定义Kubernetes事件增强可观测性

自定义事件在K8S组件之间以及K8S和外部系统之间进行通信。它们可以发出重要事件的信号，比如部署、伸缩操作、配置更改，甚至是容器中特定于应用程序的事件。

通过利用自定义事件，您可以在可观测性方面获得几个好处:

主动监控:自定义事件允许您定义和监控需要注意的特定条件。例如可以创建事件来指示何时资源不足、何时pod出现故障或何时超过特定阈值。通过捕获这些事件，您可以在问题升级之前主动检测并解决问题。
上下文信息:自定义事件包括有助于故障排除和分析根本原因的附加上下文信息。您可以附加相关的详细信息，例如错误消息、时间戳、受影响的资源或任何其他元数据，以便深入了解事件的重要性。这种额外的背景有助于更有效地理解和解决问题。
与外部系统的集成:K8S自定义事件可以由外部系统使用，例如监控平台或事故管理工具。集成这些系统允许您基于特定事件触发自动响应或通知。这简化了事件响应流程，并确保及时解决关键问题。

利用自定义K8S事件，您可以使用K8S事件挂钩（event hooks）、定制控制器，甚至使用K8S API开发您的事件驱动应用程序。通过定义事件触发器、捕获相关信息并对事件做出反应，您可以建立一个健壮的可观测性框架，补充传统的监视方法。

6、整合综合监控实现可观测性主动发现

综合监控模拟用户行为或代表与应用程序日常交互的特定事务。这些综合监控可以设置在不同的位置定期运行，模拟用户行为并测量关键性能指标。

在您的K8S环境中集成合成监控有几个主要好处:

主动问题检测:综合监控允许您在真实用户受到影响之前发现问题。通过定期模拟用户交互，您可以识别性能下降、错误或无响应的组件。这种早期检测使您能够主动解决问题并保持高应用程序可用性。
性能基准测试:综合监控为性能基准和SLA合规性提供了基线。通过从不同的位置运行一致的测试，您可以测量正常情况下的响应时间、延迟和可用性。这些基准可作为检测异常和确保最佳性能的参考。
位置监测:可以将综合监控配置为从不同的位置运行，从而在不同区域深入了解应用程序的性能。这有助于识别可能影响用户体验的延迟问题或位置差异。通过这些信息优化您的应用性能，您可以确保全球一致的用户体验。

可以利用专业工具将综合监控整合进你的K8S环境。这些工具提供了创建和部署综合监控、监控性能指标以及生成报告的能力。

为基于微服务的应用程序获得 K8S 可观测性的一种方法是使用 Datadog、Splunk、Middleware 和 Dynatrace 等第三方工具。这些工具能够捕获指标和事件，提供多个现成的报告、图表和警报以节省时间。

7、总结

通过利用以上提到的6种策略，您可以增强对 K8S 部署的行为和性能的理解。实施这些策略将提供对分布式系统的全面洞察，从而实现高效的故障排除、性能优化、主动问题检测和改进的用户体验。

无论您是在运营小规模 K8S 环境还是管理复杂的混合云部署，应用这些策略都将有助于应用程序的成功和可靠性的提升。

原文链接：https://dzone.com/articles/6-effective-strategies-for-kubernetes-observabilit