Comment masquer les données sensibles avant qu'elles n'atteignent un LLM

L'envoi de données sensibles à des modèles d'IA tiers crée des risques de sécurité. Lorsque les employés collent des informations clients ou des projets internes dans un prompt, ces données échappent à votre contrôle. Cela entraîne des violations de conformité telles que le RGPD ou la loi HIPAA.

Les LLM ne font pas la différence entre un nom et un mot aléatoire. Vous devez intercepter les données sensibles avant qu'elles n'atteignent le modèle. C'est ce qu'on appelle le masquage de prompt en ligne (inline prompt redaction).

Ce processus se déroule en quatre étapes :

  • Détecter : Le système analyse le prompt à la recherche de motifs sensibles.
  • Remplacer : Le système remplace les données par un espace réservé tel que [EMAIL_1].
  • Transmettre : Le prompt sécurisé est envoyé au LLM.
  • Auditer : Le système enregistre l'événement pour la surveillance de la sécurité.

Vous pouvez utiliser différentes méthodes pour trouver ces données :

  • Expressions régulières (Regex) : Cela fonctionne pour les données structurées comme les numéros de carte de crédit, les numéros de sécurité sociale et les numéros de téléphone. C'est rapide, mais cela échoue sur les noms ou le texte non structuré.
  • Reconnaissance d'entités nommées (NER) : Cette méthode utilise l'apprentissage automatique pour identifier les noms, les lieux et les organisations. Elle comprend mieux le contexte que les regex.

Un problème courant est la perte de contexte. Si vous supprimez tous les noms, la réponse de l'IA pourrait être inutile. Utilisez le masquage réversible pour corriger cela. Vous remplacez « Jane Doe » par « [PERSON_1] » et conservez une table de correspondance privée. Lorsque l'IA répond, votre système réinsère le nom réel pour l'utilisateur.

Ne développez pas cette logique dans chaque application. Cela serait difficile à gérer. Utilisez plutôt une passerelle d'IA (AI Gateway).

Une passerelle d'IA agit comme un proxy entre vos applications et le service d'IA. Cela vous permet de bénéficier de :

  • Un contrôle centralisé sur toutes les politiques de sécurité.
  • Pas besoin de modifier le code de chaque application.
  • Un endroit unique pour auditer toutes les requêtes.
  • Une sécurité uniforme dans toute votre entreprise.

Vous pouvez utiliser des outils d'IA sans risquer vos données privées. Le masquage automatisé maintient vos informations à l'intérieur de votre réseau.

Source : https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi