ஒரு LLM-க்குச் செல்லும் முன் உணர்திறன் மிக்கத் தரவை (Sensitive Data) எவ்வாறு மறைப்பது (Redact)

மூன்றாம் தரப்பு AI மாதிரிகளுக்கு உணர்திறன் மிக்கத் தரவை அனுப்புவது பாதுகாப்பு அபாயங்களை உருவாக்குகிறது. ஊழியர்கள் வாடிக்கையாளர் தகவல் அல்லது உள் திட்டங்களை ஒரு ப்ராம்ப்ட்டில் (prompt) ஒட்டும்போது, அந்தத் தரவு உங்கள் கட்டுப்பாட்டை விட்டு வெளியேறுகிறது. இது GDPR அல்லது HIPAA போன்ற விதிமுறை மீறல்களுக்கு வழிவகுக்கிறது.

LLM-களுக்கு ஒரு பெயருக்கும் ஒரு சாதாரண வார்த்தைக்கும் இடையிலான வேறுபாடு தெரியாது. உணர்திறன் மிக்கத் தரவு மாடலை அடைவதற்கு முன்பே அதை நீங்கள் தடுக்க வேண்டும். இது 'inline prompt redaction' என்று அழைக்கப்படுகிறது.

இந்தச் செயல்முறை நான்கு படிகளைக் கொண்டுள்ளது:

  • கண்டறிதல் (Detect): அமைப்பு ப்ராம்ப்ட்டில் உள்ள உணர்திறன் மிக்க வடிவங்களை (patterns) ஸ்கேன் செய்கிறது.
  • மாற்றுதல் (Replace): அமைப்பு தரவை [EMAIL_1] போன்ற ஒரு இடப்பொறி (placeholder) மூலம் மாற்றுகிறது.
  • அனுப்புதல் (Forward): பாதுகாப்பான ப்ராம்ப்ட் LLM-க்கு அனுப்பப்படுகிறது.
  • தணிக்கை (Audit): பாதுகாப்பு கண்காணிப்பிற்காக அமைப்பு இந்த நிகழ்வை பதிவு செய்கிறது.

இந்தத் தரவைக் கண்டறிய நீங்கள் பல்வேறு முறைகளைப் பயன்படுத்தலாம்:

  • Regular Expressions (Regex): இது கிரெடிட் கார்டு எண்கள், சமூக பாதுகாப்பு எண்கள் மற்றும் தொலைபேசி எண்கள் போன்ற கட்டமைக்கப்பட்ட தரவுகளுக்குப் பொருந்தும். இது வேகமானது, ஆனால் பெயர்கள் அல்லது கட்டமைக்கப்படாத உரைகளில் தோல்வியடையும்.
  • Named Entity Recognition (NER): இது பெயர்கள், இடங்கள் மற்றும் நிறுவனங்களைக் கண்டறிய இயந்திர கற்றலைப் (machine learning) பயன்படுத்துகிறது. இது regex-ஐ விட சூழலை (context) சிறப்பாகப் புரிந்துகொள்கிறது.

ஒரு பொதுவான பிரச்சனை சூழலை (context) இழப்பதாகும். நீங்கள் அனைத்துப் பெயர்களையும் நீக்கிவிட்டால், AI-ன் வெளியீடு பயனற்றதாக இருக்கலாம். இதைச் சரிசெய்ய 'reversible redaction' முறையைப் பயன்படுத்தவும். நீங்கள் "Jane Doe" என்பதற்குப் பதிலாக "[PERSON_1]" என்று மாற்றி, அந்த மாற்றத்திற்கான ஒரு தனிப்பட்ட வரைபடத்தை (private map) வைத்துக்கொள்ளலாம். AI பதிலளிக்கும்போது, உங்கள் அமைப்பு உண்மையான பெயரை மீண்டும் பயனருக்கு மாற்றிக் கொடுக்கும்.

இந்தத் தர்க்கத்தை (logic) ஒவ்வொரு பயன்பாட்டிலும் உருவாக்க வேண்டாம். அதை நிர்வகிப்பது கடினம். அதற்குப் பதிலாக, ஒரு AI Gateway-ஐப் பயன்படுத்தவும்.

ஒரு AI Gateway உங்கள் செயலிகளுக்கும் AI சேவைக்கும் இடையில் ஒரு ப்ராக்ஸியாக (proxy) செயல்படுகிறது. இது உங்களுக்குக் கிடைப்பவை:

  • அனைத்து பாதுகாப்பு கொள்கைகள் மீதும் மையப்படுத்தப்பட்ட கட்டுப்பாடு.
  • ஒவ்வொரு பயன்பாட்டிலும் குறியீட்டை (code) மாற்ற வேண்டிய அவசியமில்லை.
  • அனைத்து கோரிக்கைகளையும் தணிக்கை செய்ய ஒரே இடம்.
  • உங்கள் முழு நிறுவனத்திலும் சீரான பாதுகாப்பு.

உங்கள் தனிப்பட்ட தரவை அபாயத்திற்கு உள்ளாக்காமல் நீங்கள் AI கருவிகளைப் பயன்படுத்தலாம். தானியங்கி redaction உங்கள் தகவல்களை உங்கள் நெட்வொர்க்கிற்குள்ளேயே வைத்திருக்கும்.

ஆதாரம்: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi