AWS发布 Amazon DevOps Guru-51CTO.COM

12月7日，在亚马逊云服务（AWS）举办的年度盛会——AWS re:Invent上，AWS宣布了完全托管的运营服务Amazon DevOps Guru。利用机器学习技术，这一服务可以帮助开发人员通过自动检测操作问题和建议补救措施来提高应用程序可用性。Amazon DevOps Guru应用了支持Amazon.com和AWS卓越运营多年的机器学习技术，通过自动收集和分析应用程序指标、日志、事件和痕迹等数据，识别偏离正常操作模式的行为（例如，计算能力配置不足、数据库 I/O过度使用、内存泄漏等）。当Amazon DevOps Guru识别出可能导致服务中断的异常应用程序行为（例如，延迟、错误率和资源限制等增加）时，它将向开发人员发出问题详细信息（例如，涉及的资源、问题时间表和相关事件等），并通过Amazon Simple Notification Service（SNS）以及Atlassian Opsgenie和PagerDuty等合作伙伴集成服务来帮助开发人员快速了解问题的潜在影响和可能原因，并提出具体的修复建议。开发人员可以使用Amazon DevOps Guru的修复建议来减少问题修复时间，无需手动设置或机器学习专业知识即可提高应用程序的可用性和可靠性。 Amazon DevOps Guru没有前期成本或承诺，客户只需为Amazon DevOps Guru分析的数据付费。

为了摆脱本地部署的限制并向全球扩展业务运营，越来越多的组织开始转向基于云的应用程序部署和微服务架构，这也导致应用程序为满足客户需求而变得越来越分散。开发人员需要更多的自动化方式来维护应用程序的可用性，减少花费在检测、调试和解决运营问题上的时间和精力。错误的代码或配置更改、不平衡的容器集群或CPU、内存、磁盘等资源耗尽带来的应用程序宕机事件将不可避免地导致不良客户体验和收入损失。企业需要花费大量资金和开发人员时间来部署多个监测工具，而这些监测工具通常是分开管理的，并且必须针对负载平衡器错误或应用程序请求率下降等常见问题开发和维护自定义警报。对于希望通过设置阈值以识别和警告应用程序资源异常状况的企业来说，不仅很难设置准确的阈值，涉及诸多手动操作，并且要求阈值必须随着应用程序使用情况的变化而不断更新（例如，在假日购物季时突增大量请求）。如果阈值设置得太高，开发人员在运营性能已经严重受损前无法收到警报。当阈值设置得太低时，开发人员则可能得到过多误报并最终忽略警报。即使开发人员对潜在的操作问题已经有所警觉，仍然很难寻找和确认问题根源。使用现有工具，开发人员通常很难从图形和警报中确定问题根源，而即使找到根本原因，也往往无法解决问题。每次故障排除都是冷启动，团队必须花费数小时或数天来识别问题，这种工作既耗时又繁琐，从而减缓了解决操作故障的时间，并可能延长应用程序的中断时间。

Amazon DevOps Guru的机器学习模型采用了亚马逊过去20多年为Amazon.com构建、扩展和维护高可用应用程序的运营专业知识。这使Amazon DevOps Guru能够自动检测运营故障（例如，警报遗漏或配置错误，资源耗尽的早期警告，可能导致停机的配置更改等），提供有关资源和相关事件的背景，并建议补救措施，而无需开发人员具备任何机器学习经验。开发人员只需在Amazon DevOps Guru控制台中单击几下，即可自动提取和分析所有资源的历史应用程序和延迟、错误率、请求率等基础架构指标，以建立操作基线，然后Amazon DevOps Guru就可以开始通过预先训练的机器学习模型识别与既定基线的偏差。当Amazon DevOps Guru分析系统和应用程序数据以自动检测异常时，它还将这些数据分组为运营洞察，包括异常指标、随着时间的推移对应用程序行为可视化、以及有关补救措施的建议。 Amazon DevOps Guru还将相关的应用程序和基础架构指标（例如Web应用程序延迟峰值、磁盘空间用尽、错误的代码部署、内存泄漏等）相关联并进行分组，以减少冗余警报并帮助用户关注高严重性问题。客户可以通过查看配置更改历史记录、部署事件以及系统和用户活动，以在Amazon DevOps Guru控制台中生成需要优先关注的潜在操作问题事件列表。为了帮助客户快速解决问题，Amazon DevOps Guru提供了具有补救步骤的智能建议，并与AWS Systems Manager集成运行手册和协作工具，使客户能够更有效地维护应用程序并管理其部署的基础架构。 Amazon DevOps Guru与Amazon CodeGuru（机器学习支持的开发人员工具，可提供智能建议以提高代码质量并识别应用程序中最昂贵的代码行）一起，使客户可以针对其操作数据使用自动化机器学习技术，帮助开发人员轻松提高应用程序的可用性和可靠性。

负责亚马逊机器学习的AWS副总裁Swami Sivasubramanian表示：“客户希望AWS继续在我们可以运用自己的专业知识来提高应用程序可用性的领域中增加服务，并从Amazon.com的多年运营经验中学习。借助Amazon DevOps Guru，我们利用亚马逊过往的经验建立了专门的机器学习模型，帮助客户检测、排除故障并防止操作问题，并在出现问题时提供智能化建议。这使得客户可以立即从亚马逊在运营Amazon.com中学到的最佳操作实践中受益，节省配置和管理多个监测系统上所花费的时间和精力。”

只需在AWS管理控制台中单击几下，客户就可以在数分钟内开始使用Amazon DevOps Guru分析账户和应用程序活动，提供运营见解。 Amazon DevOps Guru通过汇总AWS CloudTrail、Amazon CloudWatch、AWS Config、AWS CloudFormation、AWS X-Ray等多个来源中的相关数据，让客户可以通过一个控制台可视化其运营数据，减少了在多种工具之间切换的需要。客户还可以在Amazon DevOps Guru控制台中查看相关的运营事件和数据以获得运营见解，并通过Amazon SNS接收警报。此外，Amazon DevOps Guru通过AWS软件开发工具包（AWS SDK）支持API终端节点，使合作伙伴和客户可以轻松地将Amazon DevOps Guru集成到其现有解决方案中，以针对高严重性问题提交故障单、分级并自动通知工程师。 PagerDuty和Atlassian已将Amazon DevOps Guru集成到其运营监控和事件管理平台中，使用其解决方案的客户现在可以从Amazon DevOps Guru提供的运营见解中受益。 Amazon DevOps Guru现已在美国东部（北弗吉尼亚）区域、美国东部（俄亥俄）区域、美国西部（俄勒冈）区域、亚太（新加坡）区域和欧洲（爱尔兰）区域进行预览，并将在未来几个月中在其它地区推出。

超过170,000个企业依靠Atlassian产品来简化团队合作，组织、讨论和完成工作。 Opsgenie产品负责人Emel Dogrusoz表示：“Atlassian很荣幸能与AWS就Amazon DevOps Guru推出达成合作，帮助更多开发团队部署代码和运营服务。通过与Opsgenie和Jira Service Management集成，Amazon DevOps Guru可以在预测到潜在问题或确定事件发生时立即通知相关团队。Amazon DevOps Guru提供了新的洞察力，而Atlassian确保了最快的响应速度。”

PagerDuty,Inc. (NYSE: PD) 是数字运营管理的领导者。PagerDuty产品副总裁Jonathan Rende表示：“PagerDuty致力于通过全生命周期事件自动化响应来推动向DevOps文化的转变。我们很高兴能够通过与Amazon DevOps Guru的集成来继续深化对DevOps的承诺。借助亚马逊数十年来的卓越运营经验和Amazon DevOps Guru的机器学习功能，PagerDuty为我们的共同客户提供了更多的实时信号到响应功能。通过PagerDuty提取的Amazon DevOps Guru的Amazon SNS，AWS客户可以在运营事件影响用户服务中断之前对其采取实时行动。”

汤森路透是全球最受信赖的信息和资讯提供商，帮助专业人士做出自信的决定并更好的经营业务。汤姆森路透基础设施托管业务主管史蒂夫·索恩斯说：“客户体验对我们至关重要。在试图防止和减轻影响客户的事件时，处理可用性、性能和变更请求的多种警报可能是一个挑战。我们很高兴能够使用Amazon DevOps Guru并利用其机器学习见解为快速解决问题并避免影响客户的事件提供清晰路径。这一服务与PagerDuty的集成则可以帮助我们将Amazon DevOps Guru提供的问题解决建议及时有效地交付给正确的团队。”

SmugMug是一个提供付费的图片共享和托管服务及在线视频的平台，用户可以在该平台上传照片和视频。该公司为业余和专业摄影师促进数字化和印刷作品的销售。 SmugMug运营总监Andrew Shieh说：“我的团队一直在寻找让手动工作自动化的方法。我们希望能够通过Amazon DevOps Guru实现这一目标，让AIOps接管我们的许多日常任务，简化日常运营，从而专注于IT创新。现在，我们不仅满足了业务需求，而且能够超出业务预期，因为我们有更多时间专注于最重要的事情——为我们的组织和客户创造价值。”

NextRoll通过帮助市场和营销平台构建和增强其营销解决方案提高收益。NextRoll的首席技术官Valentino Volonghi说：“我们运行着数千个Amazon Elastic Compute Cloud (Amazon EC2) 实例，一直在寻找能够减少团队用于解决运营问题时间的方法。很高兴能够使用Amazon DevOps Guru并利用其基于机器学习的洞察来帮助我们识别、关联和解决运营问题。这将帮助我的团队节省时间并减少我们的平均恢复时间。”