跳转到主要内容
让你的生产运维保持可审计,无需额外聘请专职 SRE 顾问。此定时自动化会审查你的基础架构即代码、CI/CD 配置、监控设置和运行手册,并按照 SRE 最佳实践标记存在的缺口:缺少告警、过时的值班轮换、关键服务缺失运行手册,以及未确认的 playbooks。

使用此模板

在 Devin 中打开 SRE Health Checker,并使用默认配置创建该自动化。你可以在保存前进行自定义。

此自动化会做什么

可靠性工程的核心在于维持基线环境。SRE Health Checker 每周运行一次,审查你的配置,并根据关键的可靠性实践生成一份评分报告——让你能在偏离基线演变成事件之前发现问题,并主动修复。

工作原理

触发器计划事件recurring
  • 事件schedule:recurring
    • 条件
      • rrule 匹配 FREQ=WEEKLY;BYDAY=MO;BYHOUR=9;BYMINUTE=0
Devin 的操作:在包含完整事件上下文的情况下启动一个会话,执行下面的提示,并在失败时 (可选) 通知你。

前提条件

示例提示

此模板自带以下提示。点击 Use template 后,你可以编辑它,也可以保持原样。

设置步骤

  1. 在 Devin 中打开 Automations → Templates
  2. 点击 SRE Health Checker。系统会打开已预先填好此模板的创建页面。
  3. 连接所有所需集成,如果你还没安装 MCP 服务器,请先安装。
  4. 替换触发条件中的所有占位符值 (例如,将 your-org/your-repo 替换为你的实际 repo) 。
  5. 查看提示,并根据你团队的语言习惯、规范和护栏进行调整。
  6. 点击 Create automation
大多数自动化模板都包含建议的 ACU 和调用限制,以便在早期 rollout 期间控制成本。在你对自动化的行为有足够信心之前,请先保持默认设置不变;之后再根据你的工作负载提高这些限制。

何时使用此模板

  • 正在建立首套可靠性实践的成长型工程团队
  • 希望检查是否存在系统性缺口的事件后复盘
  • 维护众多服务的平台和基础架构团队
  • 需要让新服务符合可靠性标准时

自定义建议

  • 将范围限定为特定服务、代码仓库或团队
  • 自定义审计标准 (加入团队专属的可靠性规范)
  • 与 Datadog、PagerDuty 或 Opsgenie 的 MCP 数据交叉比对
  • 调整严重程度级别和升级流程

另请参阅