How to Redact Sensitive Data Before It Reaches an LLM

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialகடந்த வாரம்2min read

How to Redact Sensitive Data Before It Reaches an LLM

ஒரு LLM-க்குச் செல்லும் முன் உணர்திறன் மிக்கத் தரவை (Sensitive Data) எவ்வாறு மறைப்பது (Redact)

மூன்றாம் தரப்பு AI மாதிரிகளுக்கு உணர்திறன் மிக்கத் தரவை அனுப்புவது பாதுகாப்பு அபாயங்களை உருவாக்குகிறது. ஊழியர்கள் வாடிக்கையாளர் தகவல் அல்லது உள் திட்டங்களை ஒரு ப்ராம்ப்ட்டில் (prompt) ஒட்டும்போது, அந்தத் தரவு உங்கள் கட்டுப்பாட்டை விட்டு வெளியேறுகிறது. இது GDPR அல்லது HIPAA போன்ற விதிமுறை மீறல்களுக்கு வழிவகுக்கிறது.

LLM-களுக்கு ஒரு பெயருக்கும் ஒரு சாதாரண வார்த்தைக்கும் இடையிலான வேறுபாடு தெரியாது. உணர்திறன் மிக்கத் தரவு மாடலை அடைவதற்கு முன்பே அதை நீங்கள் தடுக்க வேண்டும். இது 'inline prompt redaction' என்று அழைக்கப்படுகிறது.

இந்தச் செயல்முறை நான்கு படிகளைக் கொண்டுள்ளது:

கண்டறிதல் (Detect): அமைப்பு ப்ராம்ப்ட்டில் உள்ள உணர்திறன் மிக்க வடிவங்களை (patterns) ஸ்கேன் செய்கிறது.
மாற்றுதல் (Replace): அமைப்பு தரவை [EMAIL_1] போன்ற ஒரு இடப்பொறி (placeholder) மூலம் மாற்றுகிறது.
அனுப்புதல் (Forward): பாதுகாப்பான ப்ராம்ப்ட் LLM-க்கு அனுப்பப்படுகிறது.
தணிக்கை (Audit): பாதுகாப்பு கண்காணிப்பிற்காக அமைப்பு இந்த நிகழ்வை பதிவு செய்கிறது.

இந்தத் தரவைக் கண்டறிய நீங்கள் பல்வேறு முறைகளைப் பயன்படுத்தலாம்:

Regular Expressions (Regex): இது கிரெடிட் கார்டு எண்கள், சமூக பாதுகாப்பு எண்கள் மற்றும் தொலைபேசி எண்கள் போன்ற கட்டமைக்கப்பட்ட தரவுகளுக்குப் பொருந்தும். இது வேகமானது, ஆனால் பெயர்கள் அல்லது கட்டமைக்கப்படாத உரைகளில் தோல்வியடையும்.
Named Entity Recognition (NER): இது பெயர்கள், இடங்கள் மற்றும் நிறுவனங்களைக் கண்டறிய இயந்திர கற்றலைப் (machine learning) பயன்படுத்துகிறது. இது regex-ஐ விட சூழலை (context) சிறப்பாகப் புரிந்துகொள்கிறது.

ஒரு பொதுவான பிரச்சனை சூழலை (context) இழப்பதாகும். நீங்கள் அனைத்துப் பெயர்களையும் நீக்கிவிட்டால், AI-ன் வெளியீடு பயனற்றதாக இருக்கலாம். இதைச் சரிசெய்ய 'reversible redaction' முறையைப் பயன்படுத்தவும். நீங்கள் "Jane Doe" என்பதற்குப் பதிலாக "[PERSON_1]" என்று மாற்றி, அந்த மாற்றத்திற்கான ஒரு தனிப்பட்ட வரைபடத்தை (private map) வைத்துக்கொள்ளலாம். AI பதிலளிக்கும்போது, உங்கள் அமைப்பு உண்மையான பெயரை மீண்டும் பயனருக்கு மாற்றிக் கொடுக்கும்.

இந்தத் தர்க்கத்தை (logic) ஒவ்வொரு பயன்பாட்டிலும் உருவாக்க வேண்டாம். அதை நிர்வகிப்பது கடினம். அதற்குப் பதிலாக, ஒரு AI Gateway-ஐப் பயன்படுத்தவும்.

ஒரு AI Gateway உங்கள் செயலிகளுக்கும் AI சேவைக்கும் இடையில் ஒரு ப்ராக்ஸியாக (proxy) செயல்படுகிறது. இது உங்களுக்குக் கிடைப்பவை:

அனைத்து பாதுகாப்பு கொள்கைகள் மீதும் மையப்படுத்தப்பட்ட கட்டுப்பாடு.
ஒவ்வொரு பயன்பாட்டிலும் குறியீட்டை (code) மாற்ற வேண்டிய அவசியமில்லை.
அனைத்து கோரிக்கைகளையும் தணிக்கை செய்ய ஒரே இடம்.
உங்கள் முழு நிறுவனத்திலும் சீரான பாதுகாப்பு.

உங்கள் தனிப்பட்ட தரவை அபாயத்திற்கு உள்ளாக்காமல் நீங்கள் AI கருவிகளைப் பயன்படுத்தலாம். தானியங்கி redaction உங்கள் தகவல்களை உங்கள் நெட்வொர்க்கிற்குள்ளேயே வைத்திருக்கும்.

ஆதாரம்: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

How to Redact Sensitive Data Before It Reaches an LLM

ஒரு LLM-க்குச் செல்லும் முன் உணர்திறன் மிக்கத் தரவை (Sensitive Data) எவ்வாறு மறைப்பது (Redact)

Continue reading

உங்கள் AI ஏஜென்ட் ஒரு பக்கத்தை ஸ்கிராப் செய்தது. அந்தப் பக்கம் அது என்ன செய்ய வேண்டும் என்று கூறியது.

ப்ராம்ப்ட் இன்ஜெக்ஷனுக்கு எதிராக AI ஏஜென்ட்களைப் பாதுகாப்பானதாக்குதல்

LLM ப்ராம்ப்டிங்கில் தேர்ச்சி பெறுதல்: ஒரு டெவலப்பருக்கான வழிகாட்டி

ரகசியங்களை கசியவிடாமல் AI-ஐப் பயன்படுத்துதல்

n8n AI பணிப்பாய்வுகளில் தரவு கசிவைத் தடுப்பதற்கான 5 வழிகள்