ਲੌਂਚ ਤੋਂ ਪਹਿਲਾਂ ਦੀਆਂ AI ਸਿਮੂਲੇਸ਼ਨਾਂ ਨਵਾਂ ਸੁਰੱਖਿਆ ਚੈੱਕ ਹਨ

📅3 hours ago⏱2 min read

ਪ੍ਰੀ-ਲੌਂਚ AI ਸਿਮੂਲੇਸ਼ਨ ਨਵਾਂ ਸੇਫਟੀ ਚੈੱਕ ਹਨ

AI ਸੁਰੱਖਿਆ ਬਦਲ ਰਹੀ ਹੈ। ਇਹ ਚੇਤਾਵਨੀ ਲੇਬਲਾਂ ਤੋਂ ਰਿਹਰਸਲ (rehearsals) ਵੱਲ ਵਧ ਰਹੀ ਹੈ।

OpenAI ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਮਾਡਲ ਦੇ ਵਿਵਹਾਰ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਬਾਰੇ ਕੰਮ ਸਾਂਝਾ ਕੀਤਾ ਹੈ। ਉਹ ਡਿਪਲਾਈਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨਾਂ (deployment simulations) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਕਰੋੜਾਂ ਉਪਭੋਗਤਾਵਾਂ ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਟੈਸਟ ਕਰਨਾ ਕਿ ਲੋਕ, ਟੀਮਾਂ ਅਤੇ ਹਮਲਾਵਰ ਇੱਕ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰਦੇ ਹਨ।

ਉਦਯੋਗ ਬਦਲ ਰਿਹਾ ਹੈ। ਅਸੀਂ ਇੱਕ ਮਾਡਲ ਨੂੰ ਲਾਂਚ ਕਰਨ ਅਤੇ ਗਲਤੀਆਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਦੀ ਬਜਾਏ, ਲਾਂਚ ਤੋਂ ਪਹਿਲਾਂ ਗਲਤੀਆਂ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰਨ ਵੱਲ ਵਧ ਰਹੇ ਹਾਂ। ਇਹ ਇੱਕ ਅਜਿਹੀ ਆਦਤ ਹੈ ਜਿਸਨੂੰ ਹਰ ਪ੍ਰੋਡਕਟ ਟੀਮ ਨੂੰ ਅਪਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ।

ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕਸ ਅਤੇ ਰੈੱਡ-ਟੀਮਿੰਗ (red-teaming) ਕਾਫ਼ੀ ਨਹੀਂ ਹਨ। ਅਸਲ ਵਰਕਫਲੋਅ ਦੇ ਅੰਦਰ ਮਾਡਲ ਵੱਖਰੇ ਤਰੀਕੇ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਹੈਲਥਕੇਅਰ ਵਿੱਚ ਇੱਕ ਚੈਟਬੋਟ, ਡਾਟਾਬੇਸ ਐਕਸੈਸ ਵਾਲੇ ਕੋਡਿੰਗ ਏਜੰਟ ਨਾਲੋਂ ਵੱਖਰਾ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਮਾਡਲ ਉਹੀ ਰਹਿੰਦਾ ਹੈ, ਪਰ ਜੋਖਮ ਬਦਲ ਜਾਂਦੇ ਹਨ।

ਡਿਪਲਾਈਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਪੂਰੀ ਸਥਿਤੀ ਦਾ ਟੈਸਟ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਇਹ ਪੁੱਛਣਾ ਬੰਦ ਕਰ ਦਿੰਦੇ ਹੋ ਕਿ ਕੀ ਇੱਕ ਮਾਡਲ ਪ੍ਰੋਂਪਟ (prompt) ਦਾ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਇਹ ਪੁੱਛਣਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋ ਕਿ ਜਦੋਂ ਕੋਈ ਖਾਸ ਉਪਭੋਗਤਾ ਦਬਾਅ ਹੇਠ ਇੱਕ ਖਾਸ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ।

ਇਹ ਕਰਨ ਲਈ ਤੁਹਾਨੂੰ ਕਿਸੇ ਵੱਡੀ ਰਿਸਰਚ ਲੈਬ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਸੀਂ ਇਹਨਾਂ ਕਦਮਾਂ ਨਾਲ ਛੋਟੀ ਸ਼ੁਰੂਆਤ ਕਰ ਸਕਦੇ ਹੋ:

ਸਿਰਫ਼ ਪ੍ਰੋਂਪਟ ਲਈ ਨਹੀਂ, ਸਗੋਂ ਅਸਲ ਉਪਭੋਗਤਾ ਦੇ ਕੰਮਾਂ ਲਈ ਟੈਸਟ ਲਿਖੋ।
ਫਾਈਲ ਲਿਖਣ, ਈਮੇਲ, ਜਾਂ ਭੁਗਤਾਨਾਂ ਵਰਗੇ ਟੂਲ ਐਕਸੈਸ ਨੂੰ ਸ਼ਾਮਲ ਕਰੋ।
ਟੈਸਟ ਕਰੋ ਕਿ AI ਗਲਤੀਆਂ ਜਾਂ ਗੁੰਮ ਹੋਏ ਡੇਟਾ ਤੋਂ ਕਿਵੇਂ ਉਭਰਦਾ ਹੈ।
ਅਜਿਹੇ ਐਡਵਰਸੇਰੀਅਲ (adversarial) ਉਦਾਹਰਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ ਜੋ ਤੁਹਾਡੇ ਖਾਸ ਪ੍ਰੋਡਕਟ ਨਾਲ ਮੇਲ ਖਾਂਦੀਆਂ ਹੋਣ।
'ਨੀਅਰ ਮਿਸਿਜ਼' (near misses) ਨੂੰ ਲੌਗ ਕਰੋ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਨਵੇਂ ਟੈਸਟਾਂ ਵਿੱਚ ਬਦਲੋ।

ਇਹ AI ਏਜੰਟਾਂ ਲਈ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਇੱਕ ਚੈਟਬੋਟ ਗਲਤ ਜਵਾਬ ਦਿੰਦਾ ਹੈ। ਇੱਕ ਏਜੰਟ ਗਲਤ ਕਾਰਵਾਈ ਕਰਦਾ ਹੈ। ਇਹ ਜੋਖਮ ਦੇ ਪੱਧਰ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ।

ਜੇਕਰ ਤੁਸੀਂ ਕੋਈ ਸਟਾਰਟਅੱਪ ਜਾਂ ਅੰਦਰੂਨੀ ਟੂਲ ਬਣਾ ਰਹੇ ਹੋ, ਤਾਂ ਇਸ ਫਰੇਮਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰੋ:

ਖ਼ਤਰਨਾਕ ਕਿਰਿਆਵਾਂ ਦੀ ਸੂਚੀ ਬਣਾਓ: ਡਿਲੀਟ ਕਰਨਾ, ਭੇਜਣਾ, ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨਾ, ਚਾਰਜ ਕਰਨਾ, ਜਾਂ ਮਨਜ਼ੂਰੀ ਦੇਣਾ।
ਭੂਮਿਕਾ-ਅਧਾਰਤ ਸਥਿਤੀਆਂ (scenarios) ਬਣਾਓ: ਇੱਕ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲੇ, ਇੱਕ ਪਾਵਰ ਯੂਜ਼ਰ, ਅਤੇ ਇੱਕ ਮਾਲੀਸ਼ੀਅਸ (malicious) ਉਪਭੋਗਤਾ ਦਾ ਟੈਸਟ ਕਰੋ।
ਅਸਪਸ਼ਟ ਡੇਟਾ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰੋ: ਪੁਰਾਣੇ ਦਸਤਾਵੇਜ਼ਾਂ ਅਤੇ ਵਿਰੋਧੀ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਹਾਰਡ ਸਟੌਪਸ (hard stops) ਜੋੜੋ: ਅਣਡਿੱਠੀਆਂ/ਨਾ-ਵਾਪਸੀਯੋਗ ਕਾਰਵਾਈਆਂ ਲਈ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਦੀ ਲੋੜ ਹੋਵੇ।
ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਟ੍ਰੈਕ ਕਰੋ: ਮਾਪੋ ਕਿ ਮਾਡਲ ਅਨਿਸ਼ਚਿਤਤਾ ਨੂੰ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ।

ਮਕਸਦ AI ਨੂੰ ਡਰਪੋਕ ਬਣਾਉਣਾ ਨਹੀਂ ਹੈ। ਮਕਸਦ ਇਸਨੂੰ ਭਵਿੱਖਬਾਣੀਯੋਗ (predictable) ਬਣਾਉਣਾ ਹੈ।

ਕੋਈ ਵੀ ਸਿਮੂਲੇਸ਼ਨ ਸੰਪੂਰਨ ਨਹੀਂ ਹੁੰਦਾ। ਉਪਭੋਗਤਾ ਹਮੇਸ਼ਾ ਤੁਹਾਡੇ ਸਿਸਟਮ ਨੂੰ ਤੋੜਨ ਦੇ ਤਰੀਕੇ ਲੱਭ ਲੈਣਗੇ। ਇੱਕ ਲੇਅਰਡ (layered) ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰੋ: ਪ੍ਰੀ-ਲੌਂਚ ਸਿਮੂਲੇਸ਼ਨ, ਸੀਮਤ ਰੋਲਆਊਟਸ, ਲਗਾਤਾਰ ਨਿਗਰਾਨੀ, ਅਤੇ ਤੇਜ਼ ਰੋਲਬੈਕ (rollback) ਮਾਰਗ।

ਮਾਡਲ ਮੁਲਾਂਕਣ (evaluation) ਹੁਣ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਵਾਂਗ ਬਣ ਰਿਹਾ ਹੈ। ਇਹ ਸਥਿਤੀਆਂ-ਅਧਾਰਤ (scenario-driven) ਅਤੇ ਵਰਕਫਲੋ-ਜਾਗਰੂਕ ਹੈ। ਤੁਹਾਨੂੰ ਕਿਸੇ ਲੈਬ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਹਾਨੂੰ ਅਸਲ ਉਪਭੋਗਤਾ ਦੇ ਕੰਮਾਂ ਅਤੇ AI ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਟੈਕਸਟ ਜਨਰੇਟਰ ਵਜੋਂ ਨਹੀਂ, ਸਗੋਂ ਇੱਕ ਕਾਰਕ (actor) ਵਜੋਂ ਟੈਸਟ ਕਰਨ ਦੇ ਅਨੁਸ਼ਾਸਨ ਦੀ ਲੋੜ ਹੈ।

Source: https://dev.to/jenueldev/pre-launch-ai-simulations-are-becoming-the-new-model-safety-check-107e

ਲੌਂਚ ਤੋਂ ਪਹਿਲਾਂ ਦੀਆਂ AI ਸਿਮੂਲੇਸ਼ਨਾਂ ਨਵਾਂ ਸੁਰੱਖਿਆ ਚੈੱਕ ਹਨ

Continue reading

AI Red Teaming: Securing Large Language Models Against Adversarial Risks

AI ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਦੀਆਂ ਗਲਤੀਆਂ

𝗛𝗼𝘄 𝘁𝗼 𝗜𝗺𝗽𝗹𝗲𝗺𝗲𝗻𝘁 𝗔𝗜 𝗥𝗶𝘀𝗸 𝗠𝗮𝗻𝗮𝗴𝗲𝗺𝗲𝗻𝘁

𝗔𝗜 𝗥𝗶𝘀𝗸 𝗠𝗮𝗻𝗮𝗴𝗲𝗺𝗲𝗻𝘁 𝗚𝘂𝗶𝗱𝗲

ਪ੍ਰੀ-ਲੌਂਚ AI ਸਿਮੂਲੇਸ਼ਨ ਨਵੇਂ ਮਾਡਲ ਸੁਰੱਖਿਆ ਚੈੱਕ ਹਨ