How to Redact Sensitive Data Before It Reaches an LLM

Translated for your language. Read the original.

AI-assisted draft.

How to Redact Sensitive Data Before It Reaches an LLM

LLM ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਲੁਕਾਇਆ (Redact) ਜਾਵੇ

ਤੀਜੀ-ਪਾਰਟੀ AI ਮਾਡਲਾਂ ਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਭੇਜਣਾ ਸੁਰੱਖਿਆ ਜੋਖਮ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਕਰਮਚਾਰੀ ਪ੍ਰੋਂਪਟ (prompt) ਵਿੱਚ ਗਾਹਕਾਂ ਦੀ ਜਾਣਕਾਰੀ ਜਾਂ ਅੰਦਰੂਨੀ ਪ੍ਰੋਜੈਕਟ ਪੇਸਟ ਕਰਦੇ ਹਨ, ਤਾਂ ਉਹ ਡੇਟਾ ਤੁਹਾਡੇ ਕੰਟਰੋਲ ਤੋਂ ਬਾਹਰ ਚਲਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਨਾਲ GDPR ਜਾਂ HIPAA ਵਰਗੇ ਨਿਯਮਾਂ ਦੀ ਉਲੰਘਣਾ ਹੋ ਸਕਦੀ ਹੈ।

LLMs ਇੱਕ ਨਾਮ ਅਤੇ ਇੱਕ ਆਮ ਸ਼ਬਦ ਵਿਚਕਾਰ ਅੰਤਰ ਨਹੀਂ ਜਾਣਦੇ। ਤੁਹਾਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਨੂੰ ਮਾਡਲ ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਰੋਕਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਨੂੰ ਇਨਲਾਈਨ ਪ੍ਰੋਂਪਟ ਰੀਡੈਕਸ਼ਨ (inline prompt redaction) ਕਿਹਾ ਜਾਂਦਾ ਹੈ।

ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਚਾਰ ਕਦਮ ਸ਼ਾਮਲ ਹਨ:

ਡਿਟੈਕਟ (Detect): ਸਿਸਟਮ ਸੰਵੇਦਨਸ਼ੀਲ ਪੈਟਰਨਾਂ ਲਈ ਪ੍ਰੋਂਪਟ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
ਰਿਪਲੇਸ (Replace): ਸਿਸਟਮ ਡੇਟਾ ਨੂੰ [EMAIL_1] ਵਰਗੇ ਪਲੇਸਹੋਲਡਰ ਨਾਲ ਬਦਲ ਦਿੰਦਾ ਹੈ।
ਫਾਰਵਰਡ (Forward): ਸੁਰੱਖਿਅਤ ਪ੍ਰੋਂਪਟ LLM ਨੂੰ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ।
ਆਡਿਟ (Audit): ਸੁਰੱਖਿਆ ਨਿਗਰਾਨੀ ਲਈ ਸਿਸਟਮ ਇਸ ਘਟਨਾ ਨੂੰ ਲੌਗ (log) ਕਰਦਾ ਹੈ।

ਤੁਸੀਂ ਇਸ ਡੇਟਾ ਨੂੰ ਲੱਭਣ ਲਈ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ:

ਰੈਗੂਲਰ ਐਕਸਪ੍ਰੈਸ਼ਨਜ਼ (Regex): ਇਹ ਕ੍ਰੈਡਿਟ ਕਾਰਡ ਨੰਬਰਾਂ, ਸੋਸ਼ਲ ਸਕਿਓਰਿਟੀ ਨੰਬਰਾਂ ਅਤੇ ਫ਼ੋਨ ਨੰਬਰਾਂ ਵਰਗੇ ਸੰਰਚਿਤ (structured) ਡੇਟਾ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਤੇਜ਼ ਹੈ ਪਰ ਨਾਮ ਜਾਂ ਗੈਰ-ਸੰਰਚਿਤ ਟੈਕਸਟ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ।
ਨੇਮਡ ਐਂਟਿਟੀ ਰਿਕੋਗਨੀਸ਼ਨ (NER): ਇਹ ਨਾਮ, ਸਥਾਨਾਂ ਅਤੇ ਸੰਸਥਾਵਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ regex ਨਾਲੋਂ ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਸੰਦਰਭ (context) ਨੂੰ ਸਮਝਦਾ ਹੈ।

ਇੱਕ ਆਮ ਸਮੱਸਿਆ ਸੰਦਰਭ (context) ਦਾ ਖਤਮ ਹੋਣਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਸਾਰੇ ਨਾਮ ਹਟਾ ਦਿੰਦੇ ਹੋ, ਤਾਂ AI ਦਾ ਆਊਟਪੁੱਟ ਬੇਕਾਰ ਹੋ ਸਕਦਾ ਹੈ। ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਰਿਵਰਸੀਬਲ ਰੀਡੈਕਸ਼ਨ (reversible redaction) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਤੁਸੀਂ "Jane Doe" ਨੂੰ "[PERSON_1]" ਨਾਲ ਬਦਲ ਦਿੰਦੇ ਹੋ ਅਤੇ ਬਦਲਾਅ ਦਾ ਇੱਕ ਨਿੱਜੀ ਮੈਪ (map) ਰੱਖਦੇ ਹੋ। ਜਦੋਂ AI ਜਵਾਬ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਡਾ ਸਿਸਟਮ ਉਪਭੋਗਤਾ ਲਈ ਅਸਲੀ ਨਾਮ ਵਾਪਸ ਲਗਾ ਦਿੰਦਾ ਹੈ।

ਇਸ ਲੌਜਿਕ ਨੂੰ ਹਰ ਇੱਕ ਐਪ ਵਿੱਚ ਨਾ ਬਣਾਓ। ਇਸ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ। ਇਸ ਦੀ ਬਜਾਏ, ਇੱਕ AI Gateway ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਇੱਕ AI Gateway ਤੁਹਾਡੀਆਂ ਐਪਸ ਅਤੇ AI ਸਰਵਿਸ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਪ੍ਰੌਕਸੀ (proxy) ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ:

ਸਾਰੀਆਂ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ 'ਤੇ ਕੇਂਦਰੀਕ੍ਰਿਤ ਕੰਟਰੋਲ।
ਹਰ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਕੋਡ ਬਦਲਣ ਦੀ ਲੋੜ ਨਹੀਂ।
ਸਾਰੀਆਂ ਬੇਨਤੀਆਂ (requests) ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇੱਕੋ ਇੱਕ ਸਥਾਨ।
ਤੁਹਾਡੀ ਪੂਰੀ ਕੰਪਨੀ ਵਿੱਚ ਇੱਕਸਾਰ ਸੁਰੱਖਿਆ।

ਤੁਸੀਂ ਆਪਣੇ ਨਿੱਜੀ ਡੇਟਾ ਨੂੰ ਜੋਖਮ ਵਿੱਚ ਪਾਏ ਬਿਨਾਂ AI ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ। ਆਟੋਮੇਟਡ ਰੀਡੈਕਸ਼ਨ ਤੁਹਾਡੀ ਜਾਣਕਾਰੀ ਨੂੰ ਤੁਹਾਡੇ ਨੈੱਟਵਰਕ ਦੇ ਅੰਦਰ ਰੱਖਦੀ ਹੈ।

ਸਰੋਤ: https://dev.to/marco_rinaldi_179438a5611/how-to-redact-sensitive-data-before-it-reaches-an-llm-3mhp

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

How to Redact Sensitive Data Before It Reaches an LLM

LLM ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਲੁਕਾਇਆ (Redact) ਜਾਵੇ

Continue reading

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗦𝗰𝗿𝗮𝗽𝗲𝗱 𝗮 𝗣𝗮𝗴𝗲. 𝗧𝗵𝗲 𝗣𝗮𝗴𝗲 𝗧𝗼𝗹𝗱 𝗜𝘁 𝗪𝗵𝗮𝘁 𝘁𝗼 𝗗𝗼.

𝗛𝗮𝗿𝗱𝗲𝗻𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻

LLM ਪ੍ਰੋਂਪਟਿੰਗ ਵਿੱਚ ਮੁਹਾਰਤ: ਇੱਕ ਡਿਵੈਲਪਰ ਲਈ ਗਾਈਡ

Using AI Without Leaking Secrets

n8n AI ਵਰਕਫਲੋਜ਼ ਵਿੱਚ ਡਾਟਾ ਲੀਕ ਨੂੰ ਰੋਕਣ ਦੇ 5 ਤਰੀਕੇ