AI Guardrails

AI Guardrails使企业管理员能够为整个组织中用户与 Devin 的交互定义安全边界。护栏会自动筛查传入的用户消息——包括初始消息、后续消息以及拉取请求 (pull request，PR) 评论——在 Devin 处理之前检测提示词注入、数据外泄企图和策略违规行为。

概览

护栏作为一层额外的监督机制，用于发送给 Devin 的消息。它们会实时分析用户消息，并且可以：

管理员可以在设置页面或组织设置页面的 Settings > Guardrails 中配置护栏。护栏配置页面提供：

Organization filter — 查看和管理特定组织的护栏
Preset guardrails — 启用或禁用可用的护栏，并选择发生违规时要采取的操作 (log_only, warn_user, block_message, or kill_session)
Session links — 每个护栏事件都会链接回发起该事件的会话，以便进行调查

当护栏被触发时，Devin 会记录该事件及其详细信息，包括：

护栏事件会以 ai_guardrail_violation 操作类型显示在审计日志中，从而支持自动化监控和告警。你还可以通过护栏违规 API以编程方式检索护栏事件。

常见的防护栏配置包括：

AI Guardrails 是一项企业版功能。请联系您的客户团队，了解如何为您的组织启用防护栏。