メインコンテンツへスキップ
専任のSREコンサルタントを雇わなくても、本番運用を監査可能な状態に保てます。このスケジュールされた自動化は、Infrastructure as Code、CI/CDの設定、監視体制、ランブックをレビューし、SREのベストプラクティスに照らして不足や問題を検出します。たとえば、アラート不足、古くなったオンコールローテーション、重要なサービス向けランブックの欠如、確認されていないプレイブックなどです。

このテンプレートを利用する

DevinでSRE Health Checkerを開き、既定の構成で自動化を作成します。保存する前にカスタマイズできます。

この自動化でできること

信頼性エンジニアリングでは、基準状態を維持することが重要です。SRE Health Checker は毎週実行され、設定を監査したうえで、信頼性に関する重要なプラクティスに照らしたスコア付きレポートを提供します。これにより、ずれがインシデントに発展する前に把握し、先手を打って対処できます。

仕組み

トリガー: スケジュールイベントrecurring
  • イベント: schedule:recurring
    • 条件:
      • rruleFREQ=WEEKLY;BYDAY=MO;BYHOUR=9;BYMINUTE=0 と一致する
Devin が行うこと: イベントの前提情報をすべて含むセッションを開始し、以下のプロンプトを実行し、必要に応じて失敗時に通知します。

事前準備

プロンプト例

このテンプレートには、次のプロンプトが含まれています。Use template をクリックしたあとで編集することも、そのまま使うこともできます。

セットアップ

  1. Devin で Automations → Templates を開きます。
  2. SRE Health Checker をクリックします。このテンプレートの内容があらかじめ入力された作成ページが開きます。
  3. 必要な統合を接続し、まだ済んでいなければ MCP サーバーをインストールします。
  4. トリガー条件内のプレースホルダー値を置き換えます (たとえば、your-org/your-repo を実際のリポジトリ名に置き換えます) 。
  5. プロンプトを確認し、チームの言い回し、慣例、ガードレールに合わせて調整します。
  6. Create automation をクリックします。
ほとんどの自動化テンプレートには、初期展開時のコストを抑えるための推奨 ACU 上限と呼び出し上限が含まれています。自動化の挙動に十分な確信が持てるまではそのままにしておき、問題ないと判断できたらワークロードに合わせて引き上げてください。

このテンプレートを利用する場面

  • 初めて信頼性向上の取り組みを整備する、成長中のエンジニアリングチーム
  • システム全体の抜け漏れを確認したいインシデント後のレビュー
  • 多数のサービスを維持管理しているプラットフォームチームやインフラストラクチャチーム
  • 新しいサービスを信頼性基準に沿って導入する場合

カスタマイズ例

  • 対象を特定のサービス、リポジトリ、またはチームに絞る
  • 監査基準をカスタマイズする (チーム固有の信頼性基準を追加する)
  • Datadog、PagerDuty、または Opsgenie の MCP データと照合する
  • 重大度とエスカレーションパスを調整する

関連項目