چگونه دادههای حساس را پیش از رسیدن به یک LLM پنهانسازی کنیم
ارسال دادههای حساس به مدلهای هوش مصنوعی شخص ثالث، ریسکهای امنیتی ایجاد میکند. وقتی کارکنان اطلاعات مشتریان یا پروژههای داخلی را در یک پرامپت (prompt) کپی میکنند، آن دادهها از کنترل شما خارج میشوند. این امر منجر به نقض قوانین انطباق مانند GDPR یا HIPAA میشود.
مدلهای زبانی بزرگ (LLMs) تفاوت بین یک نام و یک کلمه تصادفی را نمیدانند. شما باید مانع از رسیدن دادههای حساس به مدل شوید. به این فرآیند، پنهانسازی در خط پرامپت (inline prompt redaction) میگویند.
این فرآیند شامل چهار مرحله است:
- شناسایی (Detect): سیستم پرامپت را برای یافتن الگوهای حساس اسکن میکند.
- جایگزینی (Replace): سیستم دادهها را با یک جایگزین (placeholder) مانند
[EMAIL_1]عوض میکند. - ارسال (Forward): پرامپت ایمن به LLM ارسال میشود.
- بازرسی (Audit): سیستم رویداد را برای نظارت امنیتی ثبت (log) میکند.
شما میتوانید از روشهای مختلفی برای یافتن این دادهها استفاده کنید:
- عبارتهای منظم (Regular Expressions یا Regex): این روش برای دادههای ساختاریافته مانند شماره کارتهای اعتباری، شمارههای تأمین اجتماعی و شماره تلفنها کارآمد است. این روش سریع است اما در مورد نامها یا متنهای بدون ساختار شکست میخورد.
- بازشناسی موجودیتهای نامدار (Named Entity Recognition یا NER): این روش از یادگیری ماشین برای یافتن نامها، مکانها و سازمانها استفاده میکند و نسبت به regex، بافتار (context) را بهتر درک میکند.
یک مشکل رایج، از دست رفتن بافتار (context) است. اگر تمام نامها را حذف کنید، خروجی هوش مصنوعی ممکن است بیفایده باشد. برای حل این مشکل از «پنهانسازی برگشتپذیر» (reversible redaction) استفاده کنید. شما "Jane Doe" را با [PERSON_1] جایگزین میکنید و یک نقشه خصوصی از این تغییر نگه میدارید. وقتی هوش مصنوعی پاسخ میدهد، سیستم شما نام واقعی را دوباره برای کاربر جایگزین میکند.
این منطق را در تکتک اپلیکیشنها پیادهسازی نکنید؛ مدیریت آن دشوار خواهد بود. در عوض، از یک AI Gateway استفاده کنید.
یک AI Gateway به عنوان یک پروکسی بین اپلیکیشنهای شما و سرویس هوش مصنوعی عمل میکند. این کار مزایای زیر را دارد:
- کنترل متمرکز بر تمامی سیاستهای امنیتی.
- عدم نیاز به تغییر کد در هر اپلیکیشن.
- یک مکان واحد برای بازرسی تمامی درخواستها.
- امنیت یکپارچه در کل شرکت شما.
شما میتوانید بدون به خطر انداختن دادههای خصوصی خود، از ابزارهای هوش مصنوعی استفاده کنید. پنهانسازی خودکار، اطلاعات شما را در داخل شبکه خودتان نگه میدارد.
Source: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp
Optional learning community: https://t.me/GyaanSetuAi
