在物联网世界中,客户普遍头疼的问题是在产品发布后为其提供支持。为了提供卓越的支持,重要的是依靠元支持工具的智能使用来扩大支持团队的工作。在这篇文章中,我们将重点介绍其中一些工具。
支持贸易的工具
Datadog是一种出色的监控服务,可以通过一些令人难以置信的方式进行扩展和连接。该系统对我们的云基础架构、专用主机、网站和数据库进行24/7全天候监控。
我们使用最多的功能是显示器。监视器可以是简单的冒烟测试式检查,其中工具会访问 URL 并确保它返回预期的HTTP代码。监视器也可以是复杂的、精心设计的检查,将输入传递给工具或将查询传递给数据库。例如,我们有一个检查,它按时间查询 Redshift数据库的行,平均过去一小时内所做的条目数,并在该值低于指定值时返回警告。
Datadog对所有主要的云供应商都有一流的支持,如果没有预制工具,该平台的可定制性足以让您自己构建!
理论上,这可以通过主服务器ping其他服务器或免费工具(如优秀的Cockpit Project)来复制 。然而,Datadog包括一些独特的添加功能:它的监视器和指标的可视化开箱即用非常棒,并且具有令人难以置信的细粒度工具,例如,一旦它们被分类,就可以单独将监视器静音。当需要提醒支持团队成员时,Datadog会连接到我们的松弛通道与相应的支持角色进行沟通。
某些关键级别的事件还会使用Twilio向值班团队成员发送自动文本(稍后会详细介绍)。
厨师
我们有多个冗余的Datadog监控实例,我们使用Chef工具自动编排和部署这些实例。
Chef Software是一套围绕配置管理构建的广泛工具。与Datadog配合使用,这使我们能够快速响应问题,并使我们负责的所有事情都处于工作、一致可重现的状态。
虽然第一次创建食谱的厨师“食谱”并使用它来部署基础设施与仅使用终端自己做相比可能需要更多的工作,但一旦完成将基础设施作为代码的工作,进一步工作要琐碎得多。保持我们在Chef说明书中指定的服务器使我们能够,例如, 在开发机器上应用Linux内核安全补丁,自动对其运行测试,并在合适的情况下,将 更新应用到每台相关机器并了解究竟发生了什么变化。
Chef还使从灾难中恢复变得更容易管理。勒索软件?没问题,启动一个新的EC2实例并执行您的厨师食谱!结合其他备份工具,只需调用命令chef-client就可以完成服务器的完全更换。
Chef社区在Chef“超级市场”中保留了一份最新的烹饪书公开列表,以完善这些内容。对于您能想到的几乎所有常见任务,有人都有一本食谱来帮助实现它。
Chef唯一的主要缺点是不幸的是,这些工具与实际的烹饪和购物术语共享名称,这可以测试任何开发人员的Google-fu技能。示例:Chef有一个用于管理依赖项的命令行工具,称为“knife”。如果你在谷歌上搜索“厨师刀不工作”,你会得到很多结果,其中很少有帮助你设置服务器的结果。
对我们来说幸运的是,我们找到了Chef的文档,辅以StackOverflow的健康调味料 ,回答了99.9%的问题。
AWS–代码提交/代码构建
将AWS列为元工具有点像将“计算机”列为开发人员的技术堆栈。它在技术上是准确的,但有点笼统。AWS可以做很多事情(问问参加过其中一项考试的任何人),但今天我将重点关注我们专门用于支持管道的部分: CodeCommit和CodeBuild。
CodeCommit本身并不太令人兴奋:它是一个私有的git主机。与许多AWS产品一样,它的用处在于与其他AWS工具的紧密集成。在CodeCommit中存储代码允许我们在提交时触发CloudWatch事件,并使用某些消息运行自动linting、CI/CD和执行构建。我们不太花哨;我们的支持团队有一个很好但直接的工作流程,我们将所有 Chef说明书保存为单独的CodeCommit存储库。然后我们可以使用CodeBuild来生成工件。然后,厨师基础设施每天检查是否有任何更新,并将它们应用到我们所有的相关机器上。
各种各样的
到目前为止,这篇博文已经介绍了支持的主要“循环”:基础设施、为Chef编码、使用 AWS 部署并由Datadog监控。当然,这些并不是所有的工具,但遗憾的是我没有时间去写(也不是我们大多数亲爱的读者,去消费)填写每一个细节所需的几十页。相反,我将简要提及此主要支持管道之外的一些其他工具。
崩溃计划
对于一些遗留系统和工具,CrashPlan是一个非常简单的自动化系统备份工具。它可以执行完整的系统恢复,但我们经常发现自己使用它来帮助客户恢复单个修改或删除的文件。这是一个很棒的工具,您希望永远不要使用,但是当您必须使用它时,您会很高兴。
Twil IO
为确保我们可以在一天中的任何时间响应紧急情况,我们将Datadog连接到Twilio连接,允许我们在某些情况下给随叫随到的支持团队成员发送短信。在这种情况下,Twilio只是管道;Datadog和一些cron工作首当其冲,但如果没有文本,在工作时间之外可能会缺乏支持响应。(来源:瀚云数字工厂)
合流
实际上,您可以在此项目符号中放置各种各样的wiki工具。Atlassian的Confluence产品经过精心打磨,拥有您能想象到的所有可能的旋钮和按钮,并与其他Atlassian工具相结合。在wiki中记录我们的解决方案和管道对于提高我们团队的“巴士因素”至关重要——假设人数可能由于某种原因而消失(“被巴士撞到”)而无需我们的支持。
未来
从长远来看,我们的目标是使支持角色尽可能不必要。虽然我们知道总是需要人力支持专家的角色,但通过放大我们团队的效率,我们可以避免在微观管理问题上精疲力竭和浪费时间。相反,我们可以专注于我们工作的重要部分:通过物联网将客户的想法和解决方案付诸实践!
我们正在研究一些令人兴奋和有前途的工具,包括Ansible作为Chef的潜在补充或替代品,通过ACME客户端注册器将所有手动 SSL 证书更新替换为自动更新 ,以及使用Terraform允许跨云回退的混合云解决方案 .
结论
我们希望这篇对支持工具的简短介绍能激励或鼓励您的支持工作。作为一个行业,帮助其他人提高他们对物联网产品和服务的支持质量和寿命最终会帮助每个人、客户和公司。