چگونه داده‌های حساس را پیش از رسیدن به یک LLM پنهان‌سازی کنیم

ارسال داده‌های حساس به مدل‌های هوش مصنوعی شخص ثالث، ریسک‌های امنیتی ایجاد می‌کند. وقتی کارکنان اطلاعات مشتریان یا پروژه‌های داخلی را در یک پرامپت (prompt) کپی می‌کنند، آن داده‌ها از کنترل شما خارج می‌شوند. این امر منجر به نقض قوانین انطباق مانند GDPR یا HIPAA می‌شود.

مدل‌های زبانی بزرگ (LLMs) تفاوت بین یک نام و یک کلمه تصادفی را نمی‌دانند. شما باید مانع از رسیدن داده‌های حساس به مدل شوید. به این فرآیند، پنهان‌سازی در خط پرامپت (inline prompt redaction) می‌گویند.

این فرآیند شامل چهار مرحله است:

  • شناسایی (Detect): سیستم پرامپت را برای یافتن الگوهای حساس اسکن می‌کند.
  • جایگزینی (Replace): سیستم داده‌ها را با یک جایگزین (placeholder) مانند [EMAIL_1] عوض می‌کند.
  • ارسال (Forward): پرامپت ایمن به LLM ارسال می‌شود.
  • بازرسی (Audit): سیستم رویداد را برای نظارت امنیتی ثبت (log) می‌کند.

شما می‌توانید از روش‌های مختلفی برای یافتن این داده‌ها استفاده کنید:

  • عبارت‌های منظم (Regular Expressions یا Regex): این روش برای داده‌های ساختاریافته مانند شماره کارت‌های اعتباری، شماره‌های تأمین اجتماعی و شماره تلفن‌ها کارآمد است. این روش سریع است اما در مورد نام‌ها یا متن‌های بدون ساختار شکست می‌خورد.
  • بازشناسی موجودیت‌های نام‌دار (Named Entity Recognition یا NER): این روش از یادگیری ماشین برای یافتن نام‌ها، مکان‌ها و سازمان‌ها استفاده می‌کند و نسبت به regex، بافتار (context) را بهتر درک می‌کند.

یک مشکل رایج، از دست رفتن بافتار (context) است. اگر تمام نام‌ها را حذف کنید، خروجی هوش مصنوعی ممکن است بی‌فایده باشد. برای حل این مشکل از «پنهان‌سازی برگشت‌پذیر» (reversible redaction) استفاده کنید. شما "Jane Doe" را با [PERSON_1] جایگزین می‌کنید و یک نقشه خصوصی از این تغییر نگه می‌دارید. وقتی هوش مصنوعی پاسخ می‌دهد، سیستم شما نام واقعی را دوباره برای کاربر جایگزین می‌کند.

این منطق را در تک‌تک اپلیکیشن‌ها پیاده‌سازی نکنید؛ مدیریت آن دشوار خواهد بود. در عوض، از یک AI Gateway استفاده کنید.

یک AI Gateway به عنوان یک پروکسی بین اپلیکیشن‌های شما و سرویس هوش مصنوعی عمل می‌کند. این کار مزایای زیر را دارد:

  • کنترل متمرکز بر تمامی سیاست‌های امنیتی.
  • عدم نیاز به تغییر کد در هر اپلیکیشن.
  • یک مکان واحد برای بازرسی تمامی درخواست‌ها.
  • امنیت یکپارچه در کل شرکت شما.

شما می‌توانید بدون به خطر انداختن داده‌های خصوصی خود، از ابزارهای هوش مصنوعی استفاده کنید. پنهان‌سازی خودکار، اطلاعات شما را در داخل شبکه خودتان نگه می‌دارد.

Source: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

Optional learning community: https://t.me/GyaanSetuAi