LLM कडे पोहोचण्यापूर्वी संवेदनशील डेटा कसा रेडॅक्ट (Redact) करावा

तृतीय-पक्ष (third-party) AI मॉडेल्सना संवेदनशील डेटा पाठवल्यामुळे सुरक्षा धोके निर्माण होतात. जेव्हा कर्मचारी ग्राहकांची माहिती किंवा अंतर्गत प्रकल्प प्रॉम्प्टमध्ये पेस्ट करतात, तेव्हा तो डेटा तुमच्या नियंत्रणाबाहेर जातो. यामुळे GDPR किंवा HIPAA सारख्या नियमांचे उल्लंघन होऊ शकते.

LLMs ला नाव आणि एखादा सामान्य शब्द यातील फरक समजत नाही. संवेदनशील डेटा मॉडेलपर्यंत पोहोचण्यापूर्वीच तुम्हाला तो थांबवावा लागतो. याला 'इनलाइन प्रॉम्प्ट रेडॅक्शन' (inline prompt redaction) असे म्हणतात.

या प्रक्रियेमध्ये चार टप्पे आहेत:

  • डिटेक्ट (Detect): सिस्टम प्रॉम्प्टमध्ये संवेदनशील पॅटर्न शोधण्यासाठी स्कॅन करते.
  • रिप्लेस (Replace): सिस्टम डेटा बदलून त्या जागी [EMAIL_1] सारखा प्लेसहोल्डर वापरते.
  • फॉरवर्ड (Forward): सुरक्षित प्रॉम्प्ट LLM कडे पाठवला जातो.
  • ऑडिट (Audit): सुरक्षा देखरेखीसाठी सिस्टम या घटनेची नोंद (log) करते.

हा डेटा शोधण्यासाठी तुम्ही विविध पद्धती वापरू शकता:

  • रेग्युलर एक्स्प्रेशन्स (Regex): हे क्रेडिट कार्ड नंबर, सोशल सिक्युरिटी नंबर आणि फोन नंबर यांसारख्या स्ट्रक्चर्ड डेटासाठी उपयुक्त ठरते. हे जलद आहे परंतु नावे किंवा विस्कळीत (unstructured) मजकुरासाठी अपयशी ठरते.
  • नेमड एंटिटी रिकग्निशन (NER): हे नावे, ठिकाणे आणि संस्था शोधण्यासाठी मशीन लर्निंगचा वापर करते. हे regex पेक्षा संदर्भ (context) अधिक चांगल्या प्रकारे समजून घेते.

संदर्भ गमावणे ही एक सामान्य समस्या आहे. जर तुम्ही सर्व नावे काढून टाकली, तर AI चे उत्तर निरुपयोगी ठरू शकते. हे सोडवण्यासाठी 'रिव्हर्सिबल रेडॅक्शन' (reversible redaction) वापरा. तुम्ही "Jane Doe" च्या जागी "[PERSON_1]" असे लिहिता आणि या बदलाचा एक खाजगी नकाशा (map) जतन करून ठेवता. जेव्हा AI प्रतिसाद देते, तेव्हा तुमची सिस्टम वापरकर्त्यासाठी मूळ नाव पुन्हा तिथे टाकते.

ही लॉजिक प्रत्येक ॲपमध्ये स्वतंत्रपणे तयार करू नका. ते व्यवस्थापित करणे कठीण असते. त्याऐवजी, AI Gateway वापरा.

AI Gateway तुमच्या ॲप्स आणि AI सेवा दरम्यान प्रॉक्सी (proxy) म्हणून काम करते. यामुळे तुम्हाला खालील गोष्टी मिळतात:

  • सर्व सुरक्षा धोरणांवर (security policies) केंद्रीकृत नियंत्रण.
  • प्रत्येक ॲप्लिकेशनमधील कोड बदलण्याची गरज नाही.
  • सर्व विनंत्यांचे (requests) ऑडिट करण्यासाठी एकच ठिकाण.
  • तुमच्या संपूर्ण कंपनीमध्ये एकसमान सुरक्षा.

तुम्ही तुमचा खाजगी डेटा धोक्यात न आणता AI टूल्स वापरू शकता. ऑटोमेटेड रेडॅक्शन तुमची माहिती तुमच्या नेटवर्कच्या आत सुरक्षित ठेवते.

स्रोत: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi