AI Guardrails

AI Guardrails を使用すると、Enterprise の管理者は、組織全体でユーザーが Devin とどのようにやり取りするかについて、安全上の境界を定義できます。ガードレールは、最初のメッセージ、フォローアップメッセージ、PR コメントを含む受信したユーザーメッセージを自動的に検査し、Devin が処理する前にプロンプトインジェクション、データ流出の試み、およびポリシー違反を検出します。

概要

ガードレールは、Devin に送信されるメッセージに対する追加の監視レイヤーとして機能します。ユーザーメッセージをリアルタイムで分析し、次のことができます。

不審なメッセージをレビュー用に記録する (log_only)
メッセージの処理は継続しつつ、表示バナーでユーザーに警告する (warn_user)
組織のポリシーに違反するメッセージをブロックする (block_message)
重大な違反が検出された場合、セッションを完全に終了する (kill_session)

ガードレールの設定

Enterprise 管理者は、Enterprise の設定ページまたは組織の設定ページの Settings > Guardrails からガードレールを構成できます。ガードレール設定ページでは、次の機能が提供されます。

Organization フィルター — Enterprise 内の特定の組織に対するガードレールを表示および管理する
プリセットガードレール — 利用可能なガードレールを有効または無効にし、違反時のアクション (log_only、warn_user、block_message、kill_session のいずれか) を選択する
セッションリンク — 各ガードレールイベントには、調査のための元のセッションへのリンクが含まれる

ガードレールイベント

ガードレールがトリガーされると、Devin は次の内容を含むイベントを記録します。

ガードレールをトリガーしたユーザーメッセージ
一致したガードレールルール
実行されたアクション (log_only、warn_user、block_message、kill_session のいずれか)
イベントが発生したセッションへのリンク

ガードレールイベントは、ai_guardrail_violation アクション種別として監査ログに表示され、自動監視やアラート通知を自動化できます。guardrail violations API を通じて、ガードレールイベントをプログラムから取得することもできます。

ユースケース

一般的なガードレール設定には、次のようなものがあります。

プロンプトインジェクションの検出 — Devin の指示を上書きしたり、その挙動を操作しようとするユーザーメッセージを特定してブロックする
データ持ち出しの防止 — Devin に対して機密データを許可されていない送信先に送るよう指示しようとするユーザーメッセージを検知し、フラグ付けまたはブロックする
ポリシー遵守の徹底 — ユーザーリクエストをスクリーニングし、組織のセキュリティおよび利用ポリシーに沿っていることを確認する

AI Guardrails は Enterprise 向け機能です。組織でガードレールを有効化する方法については、アカウントチームまでお問い合わせください。

はじめに

デプロイ

環境管理

統合

セキュリティとアクセス管理

活用事例とチュートリアル

概要

ガードレールの設定

ガードレールイベント

ユースケース

​概要

​ガードレールの設定

​ガードレールイベント

​ユースケース

概要

ガードレールの設定

ガードレールイベント

ユースケース