LLM ਕਮਜ਼ੋਰੀਆਂ 101
ਜ਼ਿਆਦਾਤਰ LLM ਸੁਰੱਖਿਆ ਕਮੀਆਂ ਚਲਾਕ ਨਹੀਂ ਹੁੰਦੀਆਂ। ਇਹ ਮਾਡਲਾਂ ਦੇ ਕੰਮ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਦੋ ਉਦਾਸੀਨ ਤੱਥਾਂ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਸੀਂ ਇਹਨਾਂ ਨੂੰ ਸਮਝ ਲੈਂਦੇ ਹੋ, ਤਾਂ ਹਮਲਿਆਂ ਦੀ ਡਰਾਉਣੀ ਸੂਚੀ ਸਪੱਸ਼ਟ ਹੋ ਜਾਂਦੀ ਹੈ।
ਤੱਥ 1: ਮਾਡਲ ਤੁਹਾਡੀਆਂ ਹਦਾਇਤਾਂ ਅਤੇ ਯੂਜ਼ਰ ਟੈਕਸਟ ਵਿਚਕਾਰ ਕੋਈ ਅੰਤਰ ਨਹੀਂ ਦੇਖਦਾ। ਇਹ ਡੇਟਾ ਦੀ ਇੱਕ ਹੀ ਸਟ੍ਰੀਮ ਦੇਖਦਾ ਹੈ। ਇਹ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਇਹ ਨਹੀਂ ਦੱਸ ਸਕਦਾ ਕਿ ਕਿਸ ਹਿੱਸੇ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਹੈ।
ਤੱਥ 2: ਟੂਲ ਖੇਡ ਬਦਲ ਦਿੰਦੇ ਹਨ। ਜਦੋਂ ਤੁਸੀਂ ਕਿਸੇ ਮਾਡਲ ਨੂੰ ਈਮੇਲ, ਸਰਚ, ਜਾਂ ਡੇਟਾਬੇਸ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਅਣਵਿਸ਼ਵਾਸਯੋਗ ਟੈਕਸਟ ਦੇ ਅੰਦਰ ਆਉਣ ਲਈ ਨਵੀਆਂ ਥਾਵਾਂ ਜੋੜ ਦਿੰਦੇ ਹੋ। ਤੁਸੀਂ ਇੱਕ ਅਜਿਹੇ ਮਾਡਲ ਨੂੰ ਵੀ ਬਦਲ ਦਿੰਦੇ ਹੋ ਜੋ ਸਿਰਫ਼ ਗੱਲ ਕਰ ਸਕਦਾ ਸੀ, ਇੱਕ ਅਜਿਹੇ ਮਾਡਲ ਵਿੱਚ ਜੋ ਕੰਮ (act) ਕਰ ਸਕਦਾ ਹੈ।
ਮਾਡਲ ਨਾਲ ਬਹਿਸ ਜਿੱਤਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨਾ ਬੰਦ ਕਰੋ। ਮਾਡਲ ਨੂੰ ਕੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਹੈ, ਉਸ ਨੂੰ ਬਦਲਣਾ ਸ਼ੁਰੂ ਕਰੋ।
ਮੁੱਖ ਕਮਜ਼ੋਰੀਆਂ:
- ਡਾਇਰੈਕਟ ਇੰਜੈਕਸ਼ਨ (Direct Injection): ਯੂਜ਼ਰ ਤੁਹਾਡੇ ਨਿਯਮਾਂ ਨੂੰ ਬਦਲਣ ਲਈ "ignore previous instructions" ਟਾਈਪ ਕਰਦਾ ਹੈ। ਤੁਹਾਡਾ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਕੋਈ ਸੁਰੱਖਿਆ ਸੀਮਾ ਨਹੀਂ ਹੈ।
- ਜੇਲਬ੍ਰੇਕਸ (Jailbreaks): ਇਹ ਤੁਹਾਡੀ ਐਪ ਦੀ ਬਜਾਏ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ (safety training) ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ। ਹਮਲਾਵਰ ਫਿਲਟਰਾਂ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਰੋਲਪਲੇਅ ਜਾਂ ਕਲਪਨਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।
- ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਲੀਕੇਜ (System Prompt Leakage): ਹਮਲਾਵਰ ਮਾਡਲ ਨੂੰ ਆਪਣੀਆਂ ਹੀ ਹਦਾਇਤਾਂ ਪ੍ਰਿੰਟ ਕਰਨ ਲਈ ਧੋਖਾ ਦਿੰਦੇ ਹਨ। ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਕਦੇ ਵੀ API keys ਜਾਂ ਗੁਪਤ ਜਾਣਕਾਰੀ ਨਾ ਰੱਖੋ।
- ਇਨਡਾਇਰੈਕਟ ਇੰਜੈਕਸ਼ਨ (Indirect Injection): ਅਸਲੀ ਖ਼ਤਰਾ। ਮਾਲੀਸ਼ੀਅਸ ਹਦਾਇਤਾਂ ਈਮੇਲਾਂ, PDFs, ਜਾਂ ਵੈੱਬ ਪੇਜਾਂ ਵਿੱਚ ਲੁਕੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਮਾਡਲ ਉਹਨਾਂ ਨੂੰ ਕਮਾਂਡਾਂ ਵਜੋਂ ਪੜ੍ਹਦਾ ਹੈ।
- RAG ਪੋਇਜ਼ਨਿੰਗ (RAG Poisoning): ਹਮਲਾਵਰ ਤੁਹਾ
ਸਰੋਤ: https://dev.to/weboko/llm-vulnerabilities-101-3pcj
ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi