LLM कडे पोहोचण्यापूर्वी संवेदनशील डेटा कसा मास्क करावा

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialमागील आठवडा2min read

LLM कडे पोहोचण्यापूर्वी संवेदनशील डेटा कसा मास्क करावा

LLM कडे पोहोचण्यापूर्वी संवेदनशील डेटा कसा रेडॅक्ट (Redact) करावा

तृतीय-पक्ष (third-party) AI मॉडेल्सना संवेदनशील डेटा पाठवल्यामुळे सुरक्षा धोके निर्माण होतात. जेव्हा कर्मचारी ग्राहकांची माहिती किंवा अंतर्गत प्रकल्प प्रॉम्प्टमध्ये पेस्ट करतात, तेव्हा तो डेटा तुमच्या नियंत्रणाबाहेर जातो. यामुळे GDPR किंवा HIPAA सारख्या नियमांचे उल्लंघन होऊ शकते.

LLMs ला नाव आणि एखादा सामान्य शब्द यातील फरक समजत नाही. संवेदनशील डेटा मॉडेलपर्यंत पोहोचण्यापूर्वीच तुम्हाला तो थांबवावा लागतो. याला 'इनलाइन प्रॉम्प्ट रेडॅक्शन' (inline prompt redaction) असे म्हणतात.

या प्रक्रियेमध्ये चार टप्पे आहेत:

डिटेक्ट (Detect): सिस्टम प्रॉम्प्टमध्ये संवेदनशील पॅटर्न शोधण्यासाठी स्कॅन करते.
रिप्लेस (Replace): सिस्टम डेटा बदलून त्या जागी [EMAIL_1] सारखा प्लेसहोल्डर वापरते.
फॉरवर्ड (Forward): सुरक्षित प्रॉम्प्ट LLM कडे पाठवला जातो.
ऑडिट (Audit): सुरक्षा देखरेखीसाठी सिस्टम या घटनेची नोंद (log) करते.

हा डेटा शोधण्यासाठी तुम्ही विविध पद्धती वापरू शकता:

रेग्युलर एक्स्प्रेशन्स (Regex): हे क्रेडिट कार्ड नंबर, सोशल सिक्युरिटी नंबर आणि फोन नंबर यांसारख्या स्ट्रक्चर्ड डेटासाठी उपयुक्त ठरते. हे जलद आहे परंतु नावे किंवा विस्कळीत (unstructured) मजकुरासाठी अपयशी ठरते.
नेमड एंटिटी रिकग्निशन (NER): हे नावे, ठिकाणे आणि संस्था शोधण्यासाठी मशीन लर्निंगचा वापर करते. हे regex पेक्षा संदर्भ (context) अधिक चांगल्या प्रकारे समजून घेते.

संदर्भ गमावणे ही एक सामान्य समस्या आहे. जर तुम्ही सर्व नावे काढून टाकली, तर AI चे उत्तर निरुपयोगी ठरू शकते. हे सोडवण्यासाठी 'रिव्हर्सिबल रेडॅक्शन' (reversible redaction) वापरा. तुम्ही "Jane Doe" च्या जागी "[PERSON_1]" असे लिहिता आणि या बदलाचा एक खाजगी नकाशा (map) जतन करून ठेवता. जेव्हा AI प्रतिसाद देते, तेव्हा तुमची सिस्टम वापरकर्त्यासाठी मूळ नाव पुन्हा तिथे टाकते.

ही लॉजिक प्रत्येक ॲपमध्ये स्वतंत्रपणे तयार करू नका. ते व्यवस्थापित करणे कठीण असते. त्याऐवजी, AI Gateway वापरा.

AI Gateway तुमच्या ॲप्स आणि AI सेवा दरम्यान प्रॉक्सी (proxy) म्हणून काम करते. यामुळे तुम्हाला खालील गोष्टी मिळतात:

सर्व सुरक्षा धोरणांवर (security policies) केंद्रीकृत नियंत्रण.
प्रत्येक ॲप्लिकेशनमधील कोड बदलण्याची गरज नाही.
सर्व विनंत्यांचे (requests) ऑडिट करण्यासाठी एकच ठिकाण.
तुमच्या संपूर्ण कंपनीमध्ये एकसमान सुरक्षा.

तुम्ही तुमचा खाजगी डेटा धोक्यात न आणता AI टूल्स वापरू शकता. ऑटोमेटेड रेडॅक्शन तुमची माहिती तुमच्या नेटवर्कच्या आत सुरक्षित ठेवते.

स्रोत: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

LLM कडे पोहोचण्यापूर्वी संवेदनशील डेटा कसा मास्क करावा

LLM कडे पोहोचण्यापूर्वी संवेदनशील डेटा कसा रेडॅक्ट (Redact) करावा

Continue reading

तुमच्या AI एजंटने एक पेज स्क्रॅप केले. त्या पेजने त्याला काय करायचे ते सांगितले.

प्रॉम्प्ट इंजेक्शनपासून AI एजंट्सना अधिक सुरक्षित करणे

LLM प्रॉम्प्टिंगमध्ये प्रभुत्व मिळवा: डेव्हलपरसाठी एक मार्गदर्शक

गुपिते लीक न करता AI चा वापर

n8n AI वर्कफ्लोमध्ये डेटा लीक रोखण्याचे ५ मार्ग