𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Translated for your language. Read the original.

AI-assisted draft.

-2 d2min read

LLM ਕਮਜ਼ੋਰੀਆਂ 101

ਜ਼ਿਆਦਾਤਰ LLM ਸੁਰੱਖਿਆ ਕਮੀਆਂ ਚਲਾਕ ਨਹੀਂ ਹੁੰਦੀਆਂ। ਇਹ ਮਾਡਲਾਂ ਦੇ ਕੰਮ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਦੋ ਉਦਾਸੀਨ ਤੱਥਾਂ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਸੀਂ ਇਹਨਾਂ ਨੂੰ ਸਮਝ ਲੈਂਦੇ ਹੋ, ਤਾਂ ਹਮਲਿਆਂ ਦੀ ਡਰਾਉਣੀ ਸੂਚੀ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦੀ ਹੈ।

ਤੱਥ 1: ਮਾਡਲ ਤੁਹਾਡੀਆਂ ਹਦਾਇਤਾਂ ਅਤੇ ਯੂਜ਼ਰ ਟੈਕਸਟ ਵਿਚਕਾਰ ਕੋਈ ਅੰਤਰ ਨਹੀਂ ਦੇਖਦਾ। ਇਹ ਡੇਟਾ ਦੀ ਇੱਕ ਹੀ ਸਟ੍ਰੀਮ ਦੇਖਦਾ ਹੈ। ਇਹ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਇਹ ਨਹੀਂ ਦੱਸ ਸਕਦਾ ਕਿ ਕਿਸ ਹਿੱਸੇ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਹੈ।

ਤੱਥ 2: ਟੂਲ ਖੇਡ ਬਦਲ ਦਿੰਦੇ ਹਨ। ਜਦੋਂ ਤੁਸੀਂ ਕਿਸੇ ਮਾਡਲ ਨੂੰ ਈਮੇਲ, ਸਰਚ, ਜਾਂ ਡੇਟਾਬੇਸ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਅਣਵਿਸ਼ਵਾਸਯੋਗ ਟੈਕਸਟ ਦੇ ਅੰਦਰ ਆਉਣ ਲਈ ਨਵੀਆਂ ਥਾਵਾਂ ਜੋੜ ਦਿੰਦੇ ਹੋ। ਤੁਸੀਂ ਇੱਕ ਅਜਿਹੇ ਮਾਡਲ ਨੂੰ ਵੀ ਬਦਲ ਦਿੰਦੇ ਹੋ ਜੋ ਸਿਰਫ਼ ਗੱਲ ਕਰ ਸਕਦਾ ਸੀ, ਇੱਕ ਅਜਿਹੇ ਮਾਡਲ ਵਿੱਚ ਜੋ ਕੰਮ (act) ਕਰ ਸਕਦਾ ਹੈ।

ਮਾਡਲ ਨਾਲ ਬਹਿਸ ਜਿੱਤਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਮਾਡਲ ਨੂੰ ਕੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਹੈ, ਉਸ ਨੂੰ ਬਦਲਣਾ ਸ਼ੁਰੂ ਕਰੋ।

ਮੁੱਖ ਕਮਜ਼ੋਰੀਆਂ:

ਡਾਇਰੈਕਟ ਇੰਜੈਕਸ਼ਨ (Direct Injection): ਯੂਜ਼ਰ ਤੁਹਾਡੇ ਨਿਯਮਾਂ ਨੂੰ ਬਦਲਣ ਲਈ "ignore previous instructions" ਟਾਈਪ ਕਰਦਾ ਹੈ। ਤੁਹਾਡਾ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਕੋਈ ਸੁਰੱਖਿਆ ਸੀਮਾ ਨਹੀਂ ਹੈ।
ਜੇਲਬ੍ਰੇਕਸ (Jailbreaks): ਇਹ ਤੁਹਾਡੀ ਐਪ ਦੀ ਬਜਾਏ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ (safety training) ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ। ਹਮਲਾਵਰ ਫਿਲਟਰਾਂ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਰੋਲਪਲੇਅ ਜਾਂ ਕਲਪਨਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।
ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਲੀਕੇਜ (System Prompt Leakage): ਹਮਲਾਵਰ ਮਾਡਲ ਨੂੰ ਆਪਣੀਆਂ ਹੀ ਹਦਾਇਤਾਂ ਪ੍ਰਿੰਟ ਕਰਨ ਲਈ ਧੋਖਾ ਦਿੰਦੇ ਹਨ। ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਕਦੇ ਵੀ API keys ਜਾਂ ਗੁਪਤ ਜਾਣਕਾਰੀ ਨਾ ਰੱਖੋ।
ਇਨਡਾਇਰੈਕਟ ਇੰਜੈਕਸ਼ਨ (Indirect Injection): ਅਸਲੀ ਖ਼ਤਰਾ। ਮਾਲੀਸ਼ੀਅਸ ਹਦਾਇਤਾਂ ਈਮੇਲਾਂ, PDFs, ਜਾਂ ਵੈੱਬ ਪੇਜਾਂ ਵਿੱਚ ਲੁਕੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਮਾਡਲ ਉਹਨਾਂ ਨੂੰ ਕਮਾਂਡਾਂ ਵਜੋਂ ਪੜ੍ਹਦਾ ਹੈ।
RAG ਪੋਇਜ਼ਨਿੰਗ (RAG Poisoning): ਹਮਲਾਵਰ ਤੁਹਾ

ਸਰੋਤ: https://dev.to/weboko/llm-vulnerabilities-101-3pcj

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Continue reading

𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗮𝗻𝗱 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗗𝗲𝗳𝗲𝗻𝗰𝗲: 𝗔 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗣𝗹𝗮𝘆𝗯𝗼𝗼𝗸

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗦𝗰𝗿𝗮𝗽𝗲𝗱 𝗮 𝗣𝗮𝗴𝗲. 𝗧𝗵𝗲 𝗣𝗮𝗴𝗲 𝗧𝗼𝗹𝗱 𝗜𝘁 𝗪𝗵𝗮𝘁 𝘁𝗼 𝗗𝗼.

𝗛𝗮𝗿𝗱𝗲𝗻𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻