LLM तक पहुँचने से पहले संवेदनशील डेटा को कैसे रिडैक्ट करें

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorialपिछला सप्ताह2मिनट पढ़ें

LLM तक पहुँचने से पहले संवेदनशील डेटा को कैसे रिडैक्ट करें

LLM तक पहुँचने से पहले संवेदनशील डेटा को कैसे रेडैक्ट करें

तीसरे पक्ष (third-party) के AI मॉडल्स को संवेदनशील डेटा भेजना सुरक्षा जोखिम पैदा करता है। जब कर्मचारी किसी प्रॉम्प्ट में ग्राहकों की जानकारी या आंतरिक प्रोजेक्ट्स पेस्ट करते हैं, तो वह डेटा आपके नियंत्रण से बाहर चला जाता है। इससे GDPR या HIPAA जैसे अनुपालन (compliance) उल्लंघन हो सकते हैं।

LLMs को किसी नाम और किसी रैंडम शब्द के बीच का अंतर नहीं पता होता है। आपको संवेदनशील डेटा को मॉडल तक पहुँचने से पहले ही रोकना होगा। इसे 'इनलाइन प्रॉम्प्ट रेडैक्शन' (inline prompt redaction) कहा जाता है।

इस प्रक्रिया में चार चरण होते हैं:

डिटेक्ट (Detect): सिस्टम संवेदनशील पैटर्न के लिए प्रॉम्प्ट को स्कैन करता है।
रिप्लेस (Replace): सिस्टम डेटा को [EMAIL_1] जैसे प्लेसहोल्डर से बदल देता है।
फॉरवर्ड (Forward): सुरक्षित प्रॉम्प्ट LLM के पास जाता है।
ऑडिट (Audit): सिस्टम सुरक्षा निगरानी के लिए इस घटना को लॉग करता है।

इस डेटा को खोजने के लिए आप विभिन्न तरीकों का उपयोग कर सकते हैं:

रेगुलर एक्सप्रेशंस (Regex): यह क्रेडिट कार्ड नंबर, सोशल सिक्योरिटी नंबर और फोन नंबर जैसे स्ट्रक्चर्ड डेटा के लिए काम करता है। यह तेज़ है लेकिन नामों या अनस्ट्रक्चर्ड टेक्स्ट के मामले में विफल हो जाता है।
नेम्ड एंटिटी रिकग्निशन (NER): यह नाम, स्थान और संगठनों को खोजने के लिए मशीन लर्निंग का उपयोग करता है। यह regex की तुलना में संदर्भ (context) को बेहतर समझता है।

एक आम समस्या संदर्भ (context) खोना है। यदि आप सभी नाम हटा देते हैं, तो AI का आउटपुट बेकार हो सकता है। इसे ठीक करने के लिए 'रिवर्सिबल रेडैक्शन' (reversible redaction) का उपयोग करें। आप "Jane Doe" को "[PERSON_1]" से बदल देते हैं और इस बदलाव का एक निजी मैप (map) रखते हैं। जब AI जवाब देता है, तो आपका सिस्टम उपयोगकर्ता के लिए वास्तविक नाम को वापस बदल देता है।

इस लॉजिक को हर एक ऐप में न बनाएं। इसे मैनेज करना कठिन है। इसके बजाय, एक AI Gateway का उपयोग करें।

एक AI Gateway आपके ऐप्स और AI सर्विस के बीच एक प्रॉक्सी के रूप में कार्य करता है। यह आपको निम्नलिखित सुविधाएँ देता है:

सभी सुरक्षा नीतियों पर केंद्रीकृत नियंत्रण (Centralized control)।
हर एप्लिकेशन में कोड बदलने की आवश्यकता नहीं।
सभी अनुरोधों (requests) का ऑडिट करने के लिए एक ही स्थान।
आपकी पूरी कंपनी में एक समान सुरक्षा।

आप अपने निजी डेटा को जोखिम में डाले बिना AI टूल्स का उपयोग कर सकते हैं। ऑटोमेटेड रेडैक्शन आपकी जानकारी को आपके नेटवर्क के भीतर सुरक्षित रखता है।

Source: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

Optional learning community: https://t.me/GyaanSetuAi

LLM तक पहुँचने से पहले संवेदनशील डेटा को कैसे रिडैक्ट करें

LLM तक पहुँचने से पहले संवेदनशील डेटा को कैसे रेडैक्ट करें

पढ़ना जारी रखें

आपके AI एजेंट ने एक पेज स्क्रैप किया। उस पेज ने उसे बताया कि क्या करना है।

प्रॉम्प्ट इंजेक्शन के खिलाफ AI एजेंटों को सुरक्षित बनाना

LLM प्रॉम्प्टिंग में महारत हासिल करना: डेवलपर्स के लिए एक गाइड

बिना राज़ लीक किए AI का उपयोग करना

n8n AI वर्कफ़्लो में डेटा लीक को रोकने के 5 तरीके