跳转到主要内容
AI Guardrails使企业管理员能够为整个组织中用户与 Devin 的交互定义安全边界。护栏会自动筛查传入的用户消息——包括初始消息、后续消息以及拉取请求 (pull request,PR) 评论——在 Devin 处理之前检测提示词注入、数据外泄企图和策略违规行为。

概览

护栏作为一层额外的监督机制,用于发送给 Devin 的消息。它们会实时分析用户消息,并且可以:
  • 记录 可疑消息以供审查 (log_only)
  • 警告 用户,在继续处理消息的同时显示可见横幅 (warn_user)
  • 阻止 违反组织策略的消息 (block_message)
  • 终止 在检测到严重违规时直接结束整个会话 (kill_session)

配置护栏

管理员可以在设置页面或组织设置页面的 Settings > Guardrails 中配置护栏。护栏配置页面提供:
  • Organization filter — 查看和管理特定组织的护栏
  • Preset guardrails — 启用或禁用可用的护栏,并选择发生违规时要采取的操作 (log_only, warn_user, block_message, or kill_session)
  • Session links — 每个护栏事件都会链接回发起该事件的会话,以便进行调查

护栏事件

当护栏被触发时,Devin 会记录该事件及其详细信息,包括:
  • 触发护栏的用户消息
  • 匹配到的护栏规则
  • 所采取的操作 (log_only, warn_user, block_message, or kill_session)
  • 事件发生所在会话的链接
护栏事件会以 ai_guardrail_violation 操作类型显示在审计日志中,从而支持自动化监控和告警。你还可以通过护栏违规 API以编程方式检索护栏事件。

使用场景

常见的防护栏配置包括:
  • 检测提示注入 (prompt injection) — 识别并拦截试图覆盖 Devin 指令或操控其行为的用户消息
  • 防止数据外泄 — 标记或拦截试图指示 Devin 将敏感数据发送到未授权目标的消息
  • 强制执行策略合规 — 审核用户请求,确保其符合组织的安全和使用政策
AI Guardrails 是一项企业版功能。请联系您的客户团队,了解如何为您的组织启用防护栏。