Як маскувати конфіденційні дані перед тим, як вони потраплять до LLM

Передача конфіденційних даних стороннім моделям ШІ створює ризики безпеки. Коли співробітники вставляють інформацію про клієнтів або внутрішні проєкти в промпт, ці дані виходять з-під вашого контролю. Це призводить до порушень відповідності таким стандартам, як GDPR або HIPAA.

LLM не розрізняють ім'я та випадкове слово. Ви повинні зупинити передачу конфіденційних даних до того, як вони потраплять до моделі. Це називається inline prompt redaction (маскування промптів у потоці).

Цей процес складається з чотирьох етапів:

  • Виявлення (Detect): Система сканує промпт на наявність конфіденційних патернів.
  • Заміна (Replace): Система замінює дані на плейсхолдер, наприклад [EMAIL_1].
  • Передача (Forward): Безпечний промпт надсилається до LLM.
  • Аудит (Audit): Система реєструє подію для моніторингу безпеки.

Ви можете використовувати різні методи для пошуку таких даних:

  • Регулярні вирази (Regex): Це працює для структурованих даних, таких як номери кредитних карток, номери соціального страхування та номери телефонів. Це швидко, але метод не спрацює для імен або неструктурованого тексту.
  • Розпізнавання іменованих сутностей (NER): Цей метод використовує машинне навчання для пошуку імен, локацій та організацій. Він розуміє контекст краще, ніж regex.

Поширеною проблемою є втрата контексту. Якщо видалити всі імена, відповідь ШІ може стати марною. Щоб вирішити це, використовуйте зворотне маскування (reversible redaction). Ви замінюєте "Jane Doe" на "[PERSON_1]" і зберігаєте приватну карту відповідностей. Коли ШІ надає відповідь, ваша система повертає справжнє ім'я для користувача.

Не варто вбудовувати цю логіку в кожен окремий додаток — це важко підтримувати. Замість цього використовуйте AI Gateway.

AI Gateway діє як проксі-сервер між вашими додатками та сервісом ШІ. Це забезпечує:

  • Централізований контроль над усіма політиками безпеки.
  • Відсутність необхідності змінювати код у кожному додатку.
  • Єдине місце для аудиту всіх запитів.
  • Однорідну безпеку в усій компанії.

Ви можете використовувати інструменти ШІ, не ризикуючи своїми приватними даними. Автоматичне маскування дозволяє зберігати вашу інформацію всередині вашої мережі.

Source: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

Optional learning community: https://t.me/GyaanSetuAi