𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

-9 h1min read

OpenAI ਨੇ RL ਨਾਲ AI ਸੁਰੱਖਿਆ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ

OpenAI ਨੇ AI ਨੂੰ ਵਧੇਰੇ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣ ਦਾ ਇੱਕ ਨਵਾਂ ਤਰੀਕਾ ਲੱਭ ਲਿਆ ਹੈ। ਉਨ੍ਹਾਂ ਨੇ ਮਾਡਲਾਂ ਨੂੰ ਖਾਸ ਗੁਣ ਸਿਖਾਉਣ ਲਈ Reinforcement Learning (RL) ਦੀ ਮਾਮੂਲੀ ਮਾਤਰਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹਨਾਂ ਗੁਣਾਂ ਵਿੱਚ ਸੱਚਾਈ, ਨਿਰਪੱਖਤਾ ਅਤੇ ਇਮਾਨਦਾਰੀ ਸ਼ਾਮਲ ਹਨ।

ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲ ਨੇ 53 ਵਿੱਚੋਂ 44 ਸੁਰੱਖਿਆ ਬੈਂਚਮਾਰਕਾਂ (safety benchmarks) ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ ਹੈ।

ਇਹ ਵਿਧੀ ਕੀ ਵੱਖਰਾ ਬਣਾਉਂਦੀ ਹੈ:

ਇਹ ਲਿਖਤੀ ਸੰਵਿਧਾਨ ਦੀ ਬਜਾਏ ਖਾਸ ਗੁਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ।
ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਮਾੜੇ ਪ੍ਰੋਂਪਟਸ (prompts) ਨਾਲ ਮੈਨੀਪੁਲੇਟ ਕਰਨਾ ਮੁਸ਼ਕਲ ਬਣਾਉਂਦੀ ਹੈ।
ਇਹ ਨੁਕਸਾਨਦੇਹ ਫਾਈਨ-ਟਿਊਨਿੰਗ (fine-tuning) ਦਾ ਵਿਰੋਧ ਕਰਦੀ ਹੈ।
ਇਹ ਮਾਡਲ ਨੂੰ ਮਦਦਗਾਰ ਰੱਖਦੀ ਹੈ ਅਤੇ ਨਾਲ ਹੀ ਮਾੜੇ ਵਿਵਹਾਰ ਨੂੰ ਰੋਕਦੀ ਹੈ।

OpenAI ਇਸਨੂੰ selective persistence ਕਹਿੰਦਾ ਹੈ। ਮਾਡਲ ਚੰਗੇ ਕੰਮਾਂ ਲਈ ਲਚਕੀਲਾ ਰਹਿੰਦਾ ਹੈ ਪਰ ਨੁਕਸਾਨਦੇਹ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ (steering) ਦਾ ਵਿਰੋਧ ਕਰਦਾ ਹੈ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਿਹਤ ਸੰਭਾਲ, ਕਾਨੂੰਨ ਅਤੇ ਵਿਗਿਆਨ ਵਰਗੇ ਖੇਤਰਾਂ ਦੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਉਨ੍ਹਾਂ ਨੇ ਪਾਇਆ ਕਿ ਇੱਕ ਵਿਸ਼ੇ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਦੂਜੇ ਖੇਤਰਾਂ ਨੂੰ ਵੀ ਮਦਦ ਮਿਲਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਸਿਹਤ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਮਾਡਲ ਦੂਜੇ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਧੋਖਾਧੜੀ ਤੋਂ ਬਚਣ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਸੁਧਾਰ ਹੋਇਆ।

ਇਹ Anthropic ਤੋਂ ਵੱਖਰਾ ਹੈ। Anthropic ਇੱਕ ਲਿਖਤੀ ਨਿਯਮਾਂ ਦੇ ਸਮੂਹ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ constitution ਕਿਹਾ ਜਾਂਦਾ ਹੈ। OpenAI RL ਰਾਹੀਂ ਮਾਪਣਯੋਗ ਵਿਵਹਾਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

ਇਹ ਖੋਜ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਚੰਗਾ ਵਿਵਹਾਰ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਫੈਲਦਾ ਹੈ। ਇਹ ਭਵਿੱਖ ਵਿੱਚ AI ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ।

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

ਪ੍ਰੀ-ਲੌਂਚ AI ਸਿਮੂਲੇਸ਼ਨ ਨਵੇਂ ਮਾਡਲ ਸੁਰੱਖਿਆ ਚੈੱਕ ਹਨ

ਲੌਂਚ ਤੋਂ ਪਹਿਲਾਂ ਦੀਆਂ AI ਸਿਮੂਲੇਸ਼ਨਾਂ ਨਵਾਂ ਸੁਰੱਖਿਆ ਚੈੱਕ ਹਨ

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

OpenAI Finds Small Doses of Beneficial Training Boost AI Safety