OpenAI ਨੇ RL ਨਾਲ AI ਸੁਰੱਖਿਆ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ

OpenAI ਨੇ AI ਨੂੰ ਵਧੇਰੇ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣ ਦਾ ਇੱਕ ਨਵਾਂ ਤਰੀਕਾ ਲੱਭ ਲਿਆ ਹੈ। ਉਨ੍ਹਾਂ ਨੇ ਮਾਡਲਾਂ ਨੂੰ ਖਾਸ ਗੁਣ ਸਿਖਾਉਣ ਲਈ Reinforcement Learning (RL) ਦੀ ਮਾਮੂਲੀ ਮਾਤਰਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹਨਾਂ ਗੁਣਾਂ ਵਿੱਚ ਸੱਚਾਈ, ਨਿਰਪੱਖਤਾ ਅਤੇ ਇਮਾਨਦਾਰੀ ਸ਼ਾਮਲ ਹਨ।

ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲ ਨੇ 53 ਵਿੱਚੋਂ 44 ਸੁਰੱਖਿਆ ਬੈਂਚਮਾਰਕਾਂ (safety benchmarks) ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ ਹੈ।

ਇਹ ਵਿਧੀ ਕੀ ਵੱਖਰਾ ਬਣਾਉਂਦੀ ਹੈ:

  • ਇਹ ਲਿਖਤੀ ਸੰਵਿਧਾਨ ਦੀ ਬਜਾਏ ਖਾਸ ਗੁਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ।
  • ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਮਾੜੇ ਪ੍ਰੋਂਪਟਸ (prompts) ਨਾਲ ਮੈਨੀਪੁਲੇਟ ਕਰਨਾ ਮੁਸ਼ਕਲ ਬਣਾਉਂਦੀ ਹੈ।
  • ਇਹ ਨੁਕਸਾਨਦੇਹ ਫਾਈਨ-ਟਿਊਨਿੰਗ (fine-tuning) ਦਾ ਵਿਰੋਧ ਕਰਦੀ ਹੈ।
  • ਇਹ ਮਾਡਲ ਨੂੰ ਮਦਦਗਾਰ ਰੱਖਦੀ ਹੈ ਅਤੇ ਨਾਲ ਹੀ ਮਾੜੇ ਵਿਵਹਾਰ ਨੂੰ ਰੋਕਦੀ ਹੈ।

OpenAI ਇਸਨੂੰ selective persistence ਕਹਿੰਦਾ ਹੈ। ਮਾਡਲ ਚੰਗੇ ਕੰਮਾਂ ਲਈ ਲਚਕੀਲਾ ਰਹਿੰਦਾ ਹੈ ਪਰ ਨੁਕਸਾਨਦੇਹ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ (steering) ਦਾ ਵਿਰੋਧ ਕਰਦਾ ਹੈ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਿਹਤ ਸੰਭਾਲ, ਕਾਨੂੰਨ ਅਤੇ ਵਿਗਿਆਨ ਵਰਗੇ ਖੇਤਰਾਂ ਦੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਉਨ੍ਹਾਂ ਨੇ ਪਾਇਆ ਕਿ ਇੱਕ ਵਿਸ਼ੇ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਦੂਜੇ ਖੇਤਰਾਂ ਨੂੰ ਵੀ ਮਦਦ ਮਿਲਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਸਿਹਤ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਮਾਡਲ ਦੂਜੇ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਧੋਖਾਧੜੀ ਤੋਂ ਬਚਣ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਸੁਧਾਰ ਹੋਇਆ।

ਇਹ Anthropic ਤੋਂ ਵੱਖਰਾ ਹੈ। Anthropic ਇੱਕ ਲਿਖਤੀ ਨਿਯਮਾਂ ਦੇ ਸਮੂਹ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ constitution ਕਿਹਾ ਜਾਂਦਾ ਹੈ। OpenAI RL ਰਾਹੀਂ ਮਾਪਣਯੋਗ ਵਿਵਹਾਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

ਇਹ ਖੋਜ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਚੰਗਾ ਵਿਵਹਾਰ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਫੈਲਦਾ ਹੈ। ਇਹ ਭਵਿੱਖ ਵਿੱਚ AI ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ।

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi