疫情的爆发,让网站、云应用和云基础设施的可靠性受到了成倍的考验。世界各地的企业不得不在一夜之间进行自我改造,以支持分布式劳动力。从封锁开始的一年后,具有前瞻性的企业正在再次重塑自己,因为他们准备支持混合工作场所,同时推进数字化转型。
网站可靠性工程师(SRE)和DevOps团队发现,自己在过去一年的远程工作中承受着巨大的持续压力,以帮助企业为客户和员工在分布式地域的规模上保持最佳服务交付。同时,企业有必要变得更加敏捷,工程师有必要实施频繁的软件变更,以帮助企业保持高效和适应性。
DevOps团队领导和SRE依靠数字体验监控(DEM)来排除问题,改善团队协作,并为最终用户提供更好的体验。我们已经确定了IT监控的三个趋势,专门针对DevOps和SRE,以帮助减少这种繁重的日常工作负担。
1. 混合工作场所的正常化将需要更多的全球支持,弹性的基础设施。
情况是这样的。从谷歌到思科,越来越多的公司正在重新定义未来的工作,包括混合工作场所。我并不期望所有的员工很快就会回到办公室全职工作。相反,我相信企业办公室将主要作为个人协作的场所,而家庭办公室将成为日常工作的实际选择。
由此带来的挑战:这种修改后的工作分配将要求本地网络和基础设施具有新的弹性。特别是,它将给不习惯高需求的城镇和农村地区带来额外的压力,而城市工人最近已经搬到了这些地方。
IT团队也将面临持续的压力,要为分布在家庭办公室(互联网连接可变且经常不稳定)和商业地点的员工提供可靠和一致的体验。这不是一个容易维持的平衡。那么,企业如何才能实现这一目标呢?
解决方案。首先,IT团队要有足够的能力来管理这些多种环境。启用混合工作场所需要详细了解整个服务交付链的实时情况,包括最后一英里的情况。
为了实现这一目标,我们建议进行一次审计,以浮现任何跨越DevOps、NetOps和SecOps的监控孤岛。然后,利用这些结果来识别和解决所有与性能、可靠性和安全性有关的潜在风险。通过了解和处理今天的问题,SRE可以努力实现明天真正灵活的工作环境。此外,他们可以在多个基础设施上提供最佳的员工体验。
2. 自动化程度越高,盲点就越大。
由新冠疫情引发了自动化技术在许多领域的不断使用,例如迅速实现跨客户体验渠道的无接触互动。同样,大流行病也加速了SRE和DevOps团队内重复性和常规任务的自动化。
我们听说DevOps团队和SRE越来越多地在应用管理的每个阶段使用持续集成/持续部署(CI/CD)和基础设施即代码(IaC)。通过在整个开发/生产生命周期中引入自动化,工程师们看到,代码可以更快地部署,以实现更快的上市时间。因此,随着我们继续进入2021年,我希望看到企业继续加大对自动化的使用。
由此带来的挑战:随着企业采用更大的自动化和更多的云原生方法,他们的应用程序和基础设施环境变得更加复杂。自动化引入了更多的组件。同时,这些组件经常在极短的时间内运行。此外,每个组件都会产生自己的操作数据。构成这些分布式应用的服务之间的通信会进一步产生数据。
请注意:更大的复杂性和更大的数据量导致了更多的自动化盲点机会。
解决方案:寻求一种考虑到整个开发者和用户体验的监控方法。通过在应用程序生命周期中尽可能早地将任务转移到左边,我们一直看到,开发人员通过早期测试而受益。这意味着他们可以在缺陷变成大问题之前发现它们。一个提供全栈合成的监控解决方案将帮助DevOps团队和SRE自信地向左转移,提供对生产前环境和外部网站或应用程序上的代码的用户体验的端到端可视性。
3. "就像豆荚里的两颗豌豆:"可观察性和监控将更多地串联起来发挥。
我们看到,SREs正越来越多地将可观察性和监控结合起来使用。随着IT团队意识到这两个学科在更好地了解整个系统行为和健康方面的互补方式,他们也发现将这两个学科结合起来使用有助于跟踪有价值的SLO。
挑战:SREs经常以一种孤立的方式使用可观察性和监测数据。这导致了对用户体验的有限描述。随着商业环境变得更加复杂,用户体验方面的差距也变得更加明显。
解决方案:Observability允许运营部门从生产生命周期的任何阶段的日志、指标、跟踪和事件中提取数据。这扩大了从特定数据集中收集洞察力的能力(在大数据时代非常有用)。为了达到最大效果,企业将把可观察性与数字体验监测结合起来,以跟踪其服务到达最终用户所需的所有交付组件。
这些工具共同作用,极大地提高了SREs、ITOps和DevOps进行深度根源分析的能力,并在不消耗过多内部资源的情况下更快地解决性能问题。
通过了解和预测IT监控的这三个趋势,DevOps和SREs可以更好地准备好有效地解决性能问题并改善业务成果。