Hoe gevoelige gegevens te anonimiseren voordat ze een LLM bereiken

Het versturen van gevoelige gegevens naar AI-modellen van derden creëert beveiligingsrisico's. Wanneer medewerkers klantgegevens of interne projecten in een prompt plakken, verlaat die informatie uw controle. Dit leidt tot schendingen van de regelgeving, zoals de AVG (GDPR) of HIPAA.

LLM's maken geen onderscheid tussen een naam en een willekeurig woord. U moet gevoelige gegevens stoppen voordat ze het model bereiken. Dit wordt 'inline prompt-anonimisering' genoemd.

Dit proces bestaat uit vier stappen:

  • Detecteren: Het systeem scant de prompt op gevoelige patronen.
  • Vervangen: Het systeem vervangt gegevens door een placeholder zoals [EMAIL_1].
  • Doorsturen: De veilige prompt gaat naar de LLM.
  • Auditen: Het systeem logt het evenement voor beveiligingsmonitoring.

U kunt verschillende methoden gebruiken om deze gegevens te vinden:

  • Regular Expressions (Regex): Dit werkt voor gestructureerde gegevens zoals creditcardnummers, burgerservicenummers en telefoonnummers. Het is snel, maar schiet tekort bij namen of ongestructureerde tekst.
  • Named Entity Recognition (NER): Dit maakt gebruik van machine learning om namen, locaties en organisaties te vinden. Het begrijpt de context beter dan regex.

Een veelvoorkomend probleem is het verlies van context. Als u alle namen verwijdert, kan de output van de AI nutteloos zijn. Gebruik omkeerbare anonimisering (reversible redaction) om dit op te lossen. U vervangt "Jane Doe" door "[PERSON_1]" en houdt een privé-mapping bij van de wijziging. Wanneer de AI reageert, vervangt uw systeem de echte naam weer voor de gebruiker.

Bouw deze logica niet in elke afzonderlijke app. Dat is moeilijk te beheren. Gebruik in plaats daarvan een AI Gateway.

Een AI Gateway fungeert als een proxy tussen uw apps en de AI-service. Dit biedt u:

  • Centrale controle over alle beveiligingsrichtlijnen.
  • Geen noodzaak om de code in elke applicatie aan te passen.
  • Eén centrale plek om alle verzoeken te auditen.
  • Uniforme beveiliging binnen uw hele organisatie.

U kunt AI-tools gebruiken zonder uw privacygevoelige gegevens te riskeren. Geautomatiseerde anonimisering houdt uw informatie binnen uw eigen netwerk.

Bron: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

Optionele leercommunity: https://t.me/GyaanSetuAi