LLM तक पहुँचने से पहले संवेदनशील डेटा को कैसे रेडैक्ट करें
तीसरे पक्ष (third-party) के AI मॉडल्स को संवेदनशील डेटा भेजना सुरक्षा जोखिम पैदा करता है। जब कर्मचारी किसी प्रॉम्प्ट में ग्राहकों की जानकारी या आंतरिक प्रोजेक्ट्स पेस्ट करते हैं, तो वह डेटा आपके नियंत्रण से बाहर चला जाता है। इससे GDPR या HIPAA जैसे अनुपालन (compliance) उल्लंघन हो सकते हैं।
LLMs को किसी नाम और किसी रैंडम शब्द के बीच का अंतर नहीं पता होता है। आपको संवेदनशील डेटा को मॉडल तक पहुँचने से पहले ही रोकना होगा। इसे 'इनलाइन प्रॉम्प्ट रेडैक्शन' (inline prompt redaction) कहा जाता है।
इस प्रक्रिया में चार चरण होते हैं:
- डिटेक्ट (Detect): सिस्टम संवेदनशील पैटर्न के लिए प्रॉम्प्ट को स्कैन करता है।
- रिप्लेस (Replace): सिस्टम डेटा को [EMAIL_1] जैसे प्लेसहोल्डर से बदल देता है।
- फॉरवर्ड (Forward): सुरक्षित प्रॉम्प्ट LLM के पास जाता है।
- ऑडिट (Audit): सिस्टम सुरक्षा निगरानी के लिए इस घटना को लॉग करता है।
इस डेटा को खोजने के लिए आप विभिन्न तरीकों का उपयोग कर सकते हैं:
- रेगुलर एक्सप्रेशंस (Regex): यह क्रेडिट कार्ड नंबर, सोशल सिक्योरिटी नंबर और फोन नंबर जैसे स्ट्रक्चर्ड डेटा के लिए काम करता है। यह तेज़ है लेकिन नामों या अनस्ट्रक्चर्ड टेक्स्ट के मामले में विफल हो जाता है।
- नेम्ड एंटिटी रिकग्निशन (NER): यह नाम, स्थान और संगठनों को खोजने के लिए मशीन लर्निंग का उपयोग करता है। यह regex की तुलना में संदर्भ (context) को बेहतर समझता है।
एक आम समस्या संदर्भ (context) खोना है। यदि आप सभी नाम हटा देते हैं, तो AI का आउटपुट बेकार हो सकता है। इसे ठीक करने के लिए 'रिवर्सिबल रेडैक्शन' (reversible redaction) का उपयोग करें। आप "Jane Doe" को "[PERSON_1]" से बदल देते हैं और इस बदलाव का एक निजी मैप (map) रखते हैं। जब AI जवाब देता है, तो आपका सिस्टम उपयोगकर्ता के लिए वास्तविक नाम को वापस बदल देता है।
इस लॉजिक को हर एक ऐप में न बनाएं। इसे मैनेज करना कठिन है। इसके बजाय, एक AI Gateway का उपयोग करें।
एक AI Gateway आपके ऐप्स और AI सर्विस के बीच एक प्रॉक्सी के रूप में कार्य करता है। यह आपको निम्नलिखित सुविधाएँ देता है:
- सभी सुरक्षा नीतियों पर केंद्रीकृत नियंत्रण (Centralized control)।
- हर एप्लिकेशन में कोड बदलने की आवश्यकता नहीं।
- सभी अनुरोधों (requests) का ऑडिट करने के लिए एक ही स्थान।
- आपकी पूरी कंपनी में एक समान सुरक्षा।
आप अपने निजी डेटा को जोखिम में डाले बिना AI टूल्स का उपयोग कर सकते हैं। ऑटोमेटेड रेडैक्शन आपकी जानकारी को आपके नेटवर्क के भीतर सुरक्षित रखता है।
Source: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp
Optional learning community: https://t.me/GyaanSetuAi
