AI Guardrails

Les AI Guardrails permettent aux administrateurs Enterprise de définir des limites de sécurité relatives à la manière dont les utilisateurs interagissent avec Devin dans l’ensemble de l’organisation. Les garde-fous analysent automatiquement les messages entrants des utilisateurs — y compris les messages initiaux, les messages de suivi et les commentaires de PR (pull requests) — afin de détecter les attaques par injection de prompt, les tentatives d’exfiltration de données et les violations de politiques avant que Devin ne les traite.

Présentation

Les garde-fous fonctionnent comme une couche supplémentaire de supervision appliquée aux messages envoyés à Devin. Ils analysent les messages des utilisateurs en temps réel et peuvent :

Consigner les messages suspects pour examen (log_only)
Avertir l’utilisateur au moyen d’une bannière visible tout en continuant à traiter le message (warn_user)
Bloquer les messages qui enfreignent les politiques de l’organisation (block_message)
Mettre fin à la session lorsqu’une violation critique est détectée (kill_session)

Configuration des garde-fous

Les administrateurs Enterprise peuvent configurer les garde-fous à partir de la page des paramètres Enterprise ou de la page des paramètres d’organisation, sous Settings > Guardrails. La page de configuration des garde-fous propose :

Filtre d’organisation — Afficher et gérer les garde-fous pour des organisations spécifiques au sein de l’Enterprise
Garde-fous prédéfinis — Activer ou désactiver les garde-fous disponibles et choisir l’action à effectuer en cas de violation (log_only, warn_user, block_message ou kill_session)
Liens vers les sessions — Chaque événement de garde-fou renvoie à la session d’origine pour analyse

Événements de garde-fou

Lorsqu’un garde-fou est déclenché, Devin enregistre l’événement avec des détails tels que :

le message utilisateur qui a déclenché le garde-fou
la règle de garde-fou correspondante
l’action effectuée (log_only, warn_user, block_message ou kill_session)
un lien vers la session où l’événement s’est produit

Les événements de garde-fou apparaissent dans les journaux d’audit avec le type d’action ai_guardrail_violation, ce qui permet une surveillance et des alertes automatisées. Vous pouvez également récupérer les événements de garde-fou par programmation via l’API des violations de garde-fou.

Cas d’utilisation

Les configurations de garde-fous les plus courantes incluent :

Détection de l’injection de prompt — Identifier et bloquer les messages des utilisateurs qui tentent de remplacer les instructions de Devin ou de manipuler son comportement
Prévention de l’exfiltration de données — Signaler ou bloquer les messages qui tentent d’instruire Devin afin qu’il envoie des données sensibles vers des destinations non autorisées
Faire respecter les politiques — Filtrer les demandes des utilisateurs afin de s’assurer qu’elles sont conformes aux politiques de sécurité et d’utilisation de l’organisation

AI Guardrails est une fonctionnalité Enterprise. Contactez votre équipe en charge de votre compte pour en savoir plus sur l’activation d’AI Guardrails pour votre organisation.

Premiers pas

Déploiement

Gestion de l’environnement

Intégrations

Sécurité et accès

Cas d’usage et tutoriels

Présentation

Configuration des garde-fous

Événements de garde-fou

Cas d’utilisation

​Présentation

​Configuration des garde-fous

​Événements de garde-fou

​Cas d’utilisation

Présentation

Configuration des garde-fous

Événements de garde-fou

Cas d’utilisation