LLM સુધી પહોંચતા પહેલા સંવેદનશીલ ડેટાને કેવી રીતે રિડેક્ટ (Redact) કરવો

તૃતીય-પક્ષ (third-party) AI મોડલ્સને સંવેદનશીલ ડેટા મોકલવાથી સુરક્ષા જોખમો ઊભા થાય છે. જ્યારે કર્મચારીઓ પ્રોમ્પ્ટમાં ગ્રાહકની માહિતી અથવા આંતરિક પ્રોજેક્ટ્સ પેસ્ટ કરે છે, ત્યારે તે ડેટા તમારા નિયંત્રણයෙන් બહાર જાય છે. આનાથી GDPR અથવા HIPAA જેવા પાલન (compliance) નિયમોનું ઉલ્લંઘન થઈ શકે છે.

LLMs નામ અને કોઈ સામાન્ય શબ્દ વચ્ચેનો તફાવત જાણતા નથી. સંવેદનશીલ ડેટા મોડેલ સુધી પહોંચે તે પહેલાં તમારે તેને રોકવો જોઈએ. આ પ્રક્રિયાને ઇનલાઇન પ્રોમ્પ્ટ રિડેક્શન (inline prompt redaction) કહેવામાં આવે છે.

આ પ્રક્રિયામાં ચાર તબક્કાઓ છે:

  • Detect (શોધવું): સિસ્ટમ સંવેદનશીલ પેટર્ન માટે પ્રોમ્પ્ટને સ્કેન કરે છે.
  • Replace (બદલવું): સિસ્ટમ ડેટાને [EMAIL_1] જેવા પ્લેસહોલ્ડર (placeholder) સાથે બદલી નાખે છે.
  • Forward (આગળ મોકલવું): સુરક્ષિત પ્રોમ્પ્ટ LLM ને મોકલવામાં આવે છે.
  • Audit (ઓડિટ): સુરક્ષા મોનિટરિંગ માટે સિસ્ટમ આ ઘટનાને લોગ (log) કરે છે.

આ ડેટા શોધવા માટે તમે વિવિધ પદ્ધતિઓનો ઉપયોગ કરી શકો છો:

  • Regular Expressions (Regex): આ ક્રેડિટ કાર્ડ નંબર, સોશિયલ સિક્યુરિટી નંબર અને ફોન નંબર જેવા સ્ટ્રક્ચર્ડ ડેટા માટે કામ કરે છે. તે ઝડપી છે પરંતુ નામ અથવા અનસ્ટ્રક્ચર્ડ ટેક્સ્ટ (unstructured text) માટે નિષ્ફળ જાય છે.
  • Named Entity Recognition (NER): આ નામ, સ્થળો અને સંસ્થાઓ શોધવા માટે મશીન લર્નિંગનો ઉપયોગ કરે છે. તે regex કરતા સંદર્ભ (context) ને વધુ સારી રીતે સમજે છે.

એક સામાન્ય સમસ્યા સંદર્ભ (context) ગુમાવવાની છે. જો તમે બધા નામ દૂર કરી દો, તો AI નું આઉટપુટ નકામું હોઈ શકે છે. આ સમસ્યાના ઉકેલ માટે રિવર્સિબલ રિડેક્શન (reversible redaction) નો ઉપયોગ કરો. તમે "Jane Doe" ને "[PERSON_1]" સાથે બદલો છો અને ફેરફારનો ખાનગી નકશો (private map) રાખો છો. જ્યારે AI જવાબ આપે છે, ત્યારે તમારી સિસ્ટમ વપરાશકર્તા માટે સાચું નામ પાછું ઉમેરી દે છે.

આ લોજિક દરેક એપ્લિકેશનમાં બનાવશો નહીં. તેને મેનેજ કરવું મુશ્કેલ છે. તેના બદલે, AI Gateway નો ઉપયોગ કરો.

AI Gateway તમારી એપ્સ અને AI સર્વિસ વચ્ચે પ્રોક્સી (proxy) તરીકે કામ કરે છે. આ તમને નીચે મુજબની સુવિધાઓ આપે છે:

  • તમામ સુરક્ષા નીતિઓ પર કેન્દ્રીય નિયંત્રણ.
  • દરેક એપ્લિકેશનમાં કોડ બદલવાની જરૂર નથી.
  • તમામ વિનંતીઓનું ઓડિટ કરવા માટે એક જ જગ્યા.
  • તમારી આખી કંપનીમાં સમાન સુરક્ષા.

તમે તમારા ખાનગી ડેટાને જોખમમાં મૂક્યા વિના AI ટૂલ્સનો ઉપયોગ કરી શકો છો. ઓટોમેટેડ રિડેક્શન તમારી માહિતીને તમારા નેટવર્કની અંદર રાખે છે.

સ્ત્રોત: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi