LLM ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਲੁਕਾਇਆ (Redact) ਜਾਵੇ

ਤੀਜੀ-ਪਾਰਟੀ AI ਮਾਡਲਾਂ ਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਭੇਜਣਾ ਸੁਰੱਖਿਆ ਜੋਖਮ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਕਰਮਚਾਰੀ ਪ੍ਰੋਂਪਟ (prompt) ਵਿੱਚ ਗਾਹਕਾਂ ਦੀ ਜਾਣਕਾਰੀ ਜਾਂ ਅੰਦਰੂਨੀ ਪ੍ਰੋਜੈਕਟ ਪੇਸਟ ਕਰਦੇ ਹਨ, ਤਾਂ ਉਹ ਡੇਟਾ ਤੁਹਾਡੇ ਕੰਟਰੋਲ ਤੋਂ ਬਾਹਰ ਚਲਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਨਾਲ GDPR ਜਾਂ HIPAA ਵਰਗੇ ਨਿਯਮਾਂ ਦੀ ਉਲੰਘਣਾ ਹੋ ਸਕਦੀ ਹੈ।

LLMs ਇੱਕ ਨਾਮ ਅਤੇ ਇੱਕ ਆਮ ਸ਼ਬਦ ਵਿਚਕਾਰ ਅੰਤਰ ਨਹੀਂ ਜਾਣਦੇ। ਤੁਹਾਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਨੂੰ ਮਾਡਲ ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਰੋਕਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਨੂੰ ਇਨਲਾਈਨ ਪ੍ਰੋਂਪਟ ਰੀਡੈਕਸ਼ਨ (inline prompt redaction) ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਚਾਰ ਕਦਮ ਸ਼ਾਮਲ ਹਨ:

  • ਡਿਟੈਕਟ (Detect): ਸਿਸਟਮ ਸੰਵੇਦਨਸ਼ੀਲ ਪੈਟਰਨਾਂ ਲਈ ਪ੍ਰੋਂਪਟ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
  • ਰਿਪਲੇਸ (Replace): ਸਿਸਟਮ ਡੇਟਾ ਨੂੰ [EMAIL_1] ਵਰਗੇ ਪਲੇਸਹੋਲਡਰ ਨਾਲ ਬਦਲ ਦਿੰਦਾ ਹੈ।
  • ਫਾਰਵਰਡ (Forward): ਸੁਰੱਖਿਅਤ ਪ੍ਰੋਂਪਟ LLM ਨੂੰ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ।
  • ਆਡਿਟ (Audit): ਸੁਰੱਖਿਆ ਨਿਗਰਾਨੀ ਲਈ ਸਿਸਟਮ ਇਸ ਘਟਨਾ ਨੂੰ ਲੌਗ (log) ਕਰਦਾ ਹੈ।

ਤੁਸੀਂ ਇਸ ਡੇਟਾ ਨੂੰ ਲੱਭਣ ਲਈ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ:

  • ਰੈਗੂਲਰ ਐਕਸਪ੍ਰੈਸ਼ਨਜ਼ (Regex): ਇਹ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਨੰਬਰਾਂ, ਸੋਸ਼ਲ ਸਕਿਓਰਿਟੀ ਨੰਬਰਾਂ ਅਤੇ ਫ਼ੋਨ ਨੰਬਰਾਂ ਵਰਗੇ ਸੰਰਚਿਤ (structured) ਡੇਟਾ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਤੇਜ਼ ਹੈ ਪਰ ਨਾਮ ਜਾਂ ਗੈਰ-ਸੰਰਚਿਤ ਟੈਕਸਟ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ।
  • ਨੇਮਡ ਐਂਟਿਟੀ ਰਿਕੋਗਨੀਸ਼ਨ (NER): ਇਹ ਨਾਮ, ਸਥਾਨਾਂ ਅਤੇ ਸੰਸਥਾਵਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ regex ਨਾਲੋਂ ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਸੰਦਰਭ (context) ਨੂੰ ਸਮਝਦਾ ਹੈ।

ਇੱਕ ਆਮ ਸਮੱਸਿਆ ਸੰਦਰਭ (context) ਦਾ ਖਤਮ ਹੋਣਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਸਾਰੇ ਨਾਮ ਹਟਾ ਦਿੰਦੇ ਹੋ, ਤਾਂ AI ਦਾ ਆਊਟਪੁੱਟ ਬੇਕਾਰ ਹੋ ਸਕਦਾ ਹੈ। ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਰਿਵਰਸੀਬਲ ਰੀਡੈਕਸ਼ਨ (reversible redaction) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਤੁਸੀਂ "Jane Doe" ਨੂੰ "[PERSON_1]" ਨਾਲ ਬਦਲ ਦਿੰਦੇ ਹੋ ਅਤੇ ਬਦਲਾਅ ਦਾ ਇੱਕ ਨਿੱਜੀ ਮੈਪ (map) ਰੱਖਦੇ ਹੋ। ਜਦੋਂ AI ਜਵਾਬ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਡਾ ਸਿਸਟਮ ਉਪਭੋਗਤਾ ਲਈ ਅਸਲੀ ਨਾਮ ਵਾਪਸ ਲਗਾ ਦਿੰਦਾ ਹੈ।

ਇਸ ਲੌਜਿਕ ਨੂੰ ਹਰ ਇੱਕ ਐਪ ਵਿੱਚ ਨਾ ਬਣਾਓ। ਇਸ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ। ਇਸ ਦੀ ਬਜਾਏ, ਇੱਕ AI Gateway ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਇੱਕ AI Gateway ਤੁਹਾਡੀਆਂ ਐਪਸ ਅਤੇ AI ਸਰਵਿਸ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਪ੍ਰੌਕਸੀ (proxy) ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ:

  • ਸਾਰੀਆਂ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ 'ਤੇ ਕੇਂਦਰੀਕ੍ਰਿਤ ਕੰਟਰੋਲ।
  • ਹਰ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਕੋਡ ਬਦਲਣ ਦੀ ਲੋੜ ਨਹੀਂ।
  • ਸਾਰੀਆਂ ਬੇਨਤੀਆਂ (requests) ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇੱਕੋ ਇੱਕ ਸਥਾਨ।
  • ਤੁਹਾਡੀ ਪੂਰੀ ਕੰਪਨੀ ਵਿੱਚ ਇੱਕਸਾਰ ਸੁਰੱਖਿਆ।

ਤੁਸੀਂ ਆਪਣੇ ਨਿੱਜੀ ਡੇਟਾ ਨੂੰ ਜੋਖਮ ਵਿੱਚ ਪਾਏ ਬਿਨਾਂ AI ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ। ਆਟੋਮੇਟਡ ਰੀਡੈਕਸ਼ਨ ਤੁਹਾਡੀ ਜਾਣਕਾਰੀ ਨੂੰ ਤੁਹਾਡੇ ਨੈੱਟਵਰਕ ਦੇ ਅੰਦਰ ਰੱਖਦੀ ਹੈ।

ਸਰੋਤ: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi