Keep 是第一个开源 AIOps 平台,填补了现有监控工具(如 Grafana 和 Prometheus)在 AIOps 能力上的空白。它特别适合小型团队,因为传统企业工具成本高、维护复杂,而 Keep 提供企业级功能(如扩展性、SSO)的同时,保持对小型团队的友好性。它利用大型语言模型(LLM)时代的进步,将 AI 无缝集成到运维中。
部署灵活性是 Keep 的亮点,支持本地、Kubernetes、AWS ECS 和 OpenShift 等多种环境。用户可以通过 helm install 或 docker-compose 一键启动,快速探索其功能,适合初学者和经验丰富的团队。
关键功能和能力
Keep 的设计理念是易于开始、易于扩展、易于协作,具体功能包括:
- 易于开始:提供一键安装选项,如 helm install 和 docker-compose,支持本地或 Kubernetes 部署,降低入门门槛。
- 易于扩展:其架构基于 Python 实现,易于增强和定制,支持添加新集成,目前已有 110 多个提供者,涵盖工具如 Prometheus、CloudWatch 和 Datadog。
- 易于部署:作为代码提供,支持 CI/CD 管道集成,适合云、内部部署或隔离环境,满足不同安全和合规需求。
- 易于协作:作为开源项目,GitHub 上已有 9200 颗星,700 名社区成员活跃参与,通过 Slack 社区(Slack 社区)提供支持,鼓励用户反馈融入开发。
此外,Keep 提供沙盒环境如 Playground,用户可以在此探索功能、配置和 AIOps 技术;Platform 则用于租户配置,确保团队能测试和优化策略。
使用案例和集成
Keep 解决多个 IT 操作挑战,具体如下表所示:
- 集中警报管理:将多个 Prometheus 实例和按地区/账户的 CloudWatch 设置的警报集中到一个仪表板,供审查、节流和微调。
- 警报丰富:通过观测工具、数据库和工单系统(如 Jira、ServiceNow)提供上下文,包括企业特定触发器和客户影响细节,便于决策。
- 自动化警报响应:自动化常见警报响应,如确认端点 502 错误或检查低优先级客户影响前不升级。
- 多环境监控:跨 staging、生产和测试环境集中警报,设置环境特定规则,提供统一系统健康视图。
- 噪音减少:通过去重、节流和静音减少噪音,确保团队只关注关键问题。
- SLA 合规性:跟踪警报解决时间,确保 SLA 合规性,配备自动化和报告功能。
- 事件关联:使用工作流和映射规则关联相关警报,快速识别根本原因,提供分组可操作见解。
- 工单系统集成:与 Jira 和 ServiceNow 等工单工具同步,自动化工单创建和更新,确保无缝工作流。
集成方面,Keep 支持超过 110 个提供者,通过 Webhook、路由策略或 API 与工具如 Zabbix、Nagios 连接。2023 年 Grafana 调查显示,52% 的公司使用 6 种以上观测工具,Keep 的多工具集成能力尤为重要(Grafana 调查:https://grafana.com/observability-survey-2023/)。
开发者友好
Keep 强调开发者优先,提供现代 REST API、本地 SDK 和全面文档,便于与现有堆栈集成。其 API 优先设计确保所有 UI 操作均可通过 API 完成,支持警报补救和丰富的自动化。企业安全功能包括完整身份验证支持(如 SSO、SAML、OIDC、LDAP),以及细粒度的访问控制(RBAC、ABAC)和团队管理,适合生产规模工作负载,支持高可用性和水平扩展。
用户反馈显示,Keep 被比作监控领域的 n8n.io,与 StackStorm 相比,Keep 提供更简单的 UI 和更紧密的监控工具 API 集成。社区还建议添加功能如抖动检测(flap detection)和自动补救,目前节流策略已可用,抖动检测计划中。
工作流
Keep 是监控工具的 GitHub Actions。
Keep 工作流是一个声明式的 YAML 文件,用于自动化您的警报和事件管理。每个工作流包含:
- 触发器 - 启动工作流的条件(警报、事件、计划或手动)
- 步骤 - 读取或获取数据(丰富、上下文)
- 操作 - 执行操作(更新工单、发送通知、重启服务器)
以下是一个简单的工作流示例,它为来自 Sentry 的支付和 API 服务的关键警报创建 Jira 工单。
总结
KeepHQ 是一个变革性的开源 AIOps 平台,为 DevOps 和 SRE 团队民主化了高级警报管理和自动化。通过减少噪音、丰富警报和自动化响应,Keep 帮助组织将数据转化为可操作的见解,促进协作和可扩展性,适合各种环境。无论是希望采用 AIOps 实践的小型团队,还是寻求强大可扩展解决方案的企业,Keep 提供了一个引人注目的、社区支持的平台来简化 IT 操作。
Github 仓库地址:https://github.com/keephq/keep