𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲

Translated for your language. Read the original.

AI-assisted draft.

𝟳 ਗਾਰਡਰੇਲ ਜੋ ਤੁਹਾਡੇ LLM ਨੂੰ ਕੰਟਰੋਲ ਤੋਂ ਬਾਹਰ ਜਾਣ ਤੋਂ ਰੋਕਦੇ ਹਨ

NIST ਨੇ ਮਹੱਤਵਪੂਰਨ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਲਈ AI ਜੋਖਮ ਪ੍ਰਬੰਧਨ (risk management) ਬਾਰੇ ਇੱਕ ਨਵਾਂ ਨੋਟ ਜਾਰੀ ਕੀਤਾ ਹੈ।

ਉਹ ਚਾਹੁੰਦੇ ਹਨ ਕਿ AI ਸਿਸਟਮਾਂ ਵਿੱਚ ਪਰਖੇ ਹੋਏ ਅਤੇ ਤਸਦੀਕ ਕੀਤੇ ਹੋਏ ਸੁਰੱਖਿਆ ਉਪਾਅ ਹੋਣ। ਡਿਵੈਲਪਰਾਂ ਨੂੰ prompt injection ਵਰਗੇ ਹਮਲਿਆਂ ਨੂੰ ਰੋਕਣ ਲਈ ਇਹ ਸੁਰੱਖਿਆ ਉਪਾਅ ਬਣਾਉਣੇ ਚਾਹੀਦੇ ਹਨ।

ਸੁਰੱਖਿਆ ਲਈ ਸਿਰਫ਼ ਚੰਗੀਆਂ ਇੱਛਾਵਾਂ ਹੀ ਕਾਫ਼ੀ ਨਹੀਂ ਹਨ। ਇਸ ਲਈ ਪ੍ਰੋਗਰਾਮੈਟਿਕ ਗਾਰਡਰੇਲ (programmatic guardrails) ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਤੁਹਾਡੇ AI ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਲਈ ਇੱਥੇ 7 ਰਣਨੀਤੀਆਂ ਹਨ:

Input validation ਮਾਡਲ ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਸਾਰੇ ਯੂਜ਼ਰ ਟੈਕਸਟ ਦੀ ਜਾਂਚ ਕਰੋ। ਮਾਲੀਸ਼ੀਅਸ ਕੋਡ (malicious code) ਜਾਂ ਅਣਉਮੀਦ HTML tags ਨੂੰ ਹਟਾਓ। ਹਮਲਾਵਰਾਂ ਤੋਂ ਅੱਗੇ ਰਹਿਣ ਲਈ ਇਹਨਾਂ ਨਿਯਮਾਂ ਨੂੰ ਅਕਸਰ ਅਪਡੇਟ ਕਰਦੇ ਰਹੋ।
Output filtering ਯੂਜ਼ਰਾਂ ਦੁਆਰਾ ਦੇਖੇ ਜਾਣ ਤੋਂ ਪਹਿਲਾਂ AI ਦੇ ਜਵਾਬਾਂ ਦੀ ਜਾਂਚ ਕਰੋ। ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਨੂੰ ਰੋਕਣ ਲਈ ਕੀਵਰਡ ਲਿਸਟਾਂ ਜਾਂ pattern matching ਦੀ ਵਰਤੋਂ ਕਰੋ। Pydantic ਵਰਗੇ ਟੂਲ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਕਿ ਆਉਟਪੁੱਟ ਇੱਕ ਨਿਰਧਾਰਤ ਢਾਂਚੇ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ।
Structured prompting System prompts ਅਤੇ ਸਪੱਸ਼ਟ delimiters ਦੀ ਵਰਤੋਂ ਕਰੋ। ਯੂਜ਼ਰ ਦੀਆਂ ਕੁਐਰੀਆਂ (queries) ਨੂੰ ###User Input### ਵਰਗੇ ਖਾਸ ਟੋਕਨਾਂ ਵਿੱਚ ਰੱਖੋ। ਇਹ ਮਾਡਲ ਨੂੰ ਤੁਹਾਡੀਆਂ ਹਦਾਇਤਾਂ ਅਤੇ ਯੂਜ਼ਰ ਡੇਟਾ ਵਿਚਕਾਰ ਅੰਤਰ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
Adversarial training ਹਮਲੇ ਦੇ ਉਦਾਹਰਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿਓ। ਇਹ ਮਾਡਲ ਨੂੰ ਨੁਕਸਾਨਦੇਹ ਪ੍ਰੋਂਪਟਾਂ (prompts) ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਰੱਦ ਕਰਨ ਲਈ ਸਿਖਾਉਂਦਾ ਹੈ। ਸੁਰੱਖਿਆ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਲਈ ਤੁਸੀਂ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ, ਵਿਸ਼ੇਸ਼ ਡੇਟਾ 'ਤੇ ਮਾਡਲਾਂ ਨੂੰ fine-tune ਵੀ ਕਰ ਸਕਦੇ ਹੋ।
Real-time monitoring ਆਪਣੇ ਸਿਸਟਮ ਲੌਗਸ (logs) ਅਤੇ ਵਰਤੋਂ ਦੇ ਪੈਟਰਨਾਂ 'ਤੇ ਲਗਾਤਾਰ ਨਜ਼ਰ ਰੱਖੋ। ਅਜੀਬ ਵਿਵਹਾਰ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ anomaly detection ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਤੁਹਾਨੂੰ ਖ਼ਤਰਿਆਂ ਦੇ ਵਧਣ ਤੋਂ ਪਹਿਲਾਂ ਉਹਨਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
Red teaming ਅਸਲ ਦੁਨੀਆ ਦੇ ਹਮਲਿਆਂ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਟੀਮਾਂ ਨੂੰ ਹਾਇਰ ਕਰੋ। ਉਹ ਹੈਕਰਾਂ ਤੋਂ ਪਹਿਲਾਂ ਕਮੀਆਂ ਅਤੇ prompt injection ਵੈਕਟਰਾਂ ਦੀ ਪਛਾਣ ਕਰਦੇ ਹਨ। ਇਹ AI-ਵਿਸ਼ੇਸ਼ ਖ਼ਤਰਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਕੇ ਸਟੈਂਡਰਡ ਟੈਸਟਿੰਗ ਤੋਂ ਅੱਗੇ ਜਾਂਦਾ ਹੈ।
Human-in-the-loop ਅਜਿਹੇ ਚੈੱਕਪੁਆਇੰਟ ਬਣਾਓ ਜਿੱਥੇ ਕਿਸੇ ਵਿਅਕਤੀ ਨੂੰ ਕਾਰਵਾਈਆਂ ਦੀ ਸਮੀਖਿਆ ਜਾਂ ਮਨਜ਼ੂਰੀ ਦੇਣੀ ਪਵੇ। ਇਹ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਕੰਮਾਂ ਲਈ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਇਹ ਉਦੋਂ ਜਵਾਬਦੇਹੀ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਜਦੋਂ ਗਲਤੀਆਂ ਦੀ ਕੀਮਤ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ।

ਗਾਰਡਰੇਲ ਹੁਣ ਵਿਕਲਪਿਕ ਨਹੀਂ ਹਨ। ਇਹ ਇੱਕ ਮੁੱਖ ਇੰਜੀਨੀਅਰਿੰਗ ਲੋੜ ਹਨ।

Source: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p

Optional learning community: https://t.me/GyaanSetuAi

𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲

Continue reading

𝗧𝗵𝗲 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗥𝘂𝗹𝗲 𝗙𝗼𝗿 𝗦𝗮𝗳𝗲 𝗔𝗜

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗮𝗻𝗱 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗗𝗲𝗳𝗲𝗻𝗰𝗲: 𝗔 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗣𝗹𝗮𝘆𝗯𝗼𝗼𝗸