OpenAI Finds Small Doses of Beneficial Training Boost AI Safety

Translated for your language. Read the original.

AI-assisted draft.

yesterday3min read

In this article

OpenAI ਨੇ ਪਾਇਆ ਕਿ ਲਾਭਦਾਇਕ ਸਿਖਲਾਈ ਦੀਆਂ ਥੋੜ੍ਹੀਆਂ ਮਾਤਰਾਵਾਂ AI ਸੁਰੱਖਿਆ ਨੂੰ ਵਧਾਉਂਦੀਆਂ ਹਨ

OpenAI ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਪਾਇਆ ਹੈ ਕਿ AI ਮਾਡਲਾਂ ਨੂੰ ਖਾਸ ਸਕਾਰਾਤਮਕ ਵਿਵਹਾਰਾਂ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਵਿਆਪਕ ਅਤੇ ਅਣਪਛਾਤੇ ਸੁਧਾਰ ਹੋ ਸਕਦੇ ਹਨ। ਇਹ ਵੱਡੀ ਸਫਲਤਾ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ "ਚੰਗਾ ਵਿਵਹਾਰ" ਬਹੁਤ ਜ਼ਿਆਦਾ ਤਬਦੀਲ ਹੋਣ ਯੋਗ ਹੈ, ਜੋ ਕਿ ਬਿਨਾਂ ਕਿਸੇ ਵੱਡੇ ਨਵੇਂ ਡੇਟਾਸੈਟ ਦੀ ਲੋੜ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਹੇਰਾਫੇਰੀ ਪ੍ਰਤੀ ਵਧੇਰੇ ਰੋਧਕ ਬਣਾਉਂਦਾ ਹੈ।

ਆਮ ਵਰਤੋਂ ਯੋਗ ਲਾਭਦਾਇਕ ਗੁਣਾਂ ਦੀ ਸ਼ਕਤੀ

OpenAI ਦੇ ਅਲਾਈਨਮੈਂਟ (alignment) ਪੇਜ 'ਤੇ ਪ੍ਰਕਾਸ਼ਿਤ ਇੱਕ ਤਾਜ਼ਾ ਅਧਿਐਨ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਕਿ ਕੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦੌਰਾਨ ਖਾਸ ਸਕਾਰਾਤਮਕ ਗੁਣਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਨਾਲ ਉਹ ਅਣਜਾਣ ਸਥਿਤੀਆਂ ਵਿੱਚ ਵੀ ਲਾਗੂ ਹੋ ਸਕਦੇ ਹਨ। ਵਿਆਪਕ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀ ਬਜਾਏ, ਟੀਮ ਨੇ ਲੋੜੀਂਦੇ ਵਿਵਹਾਰਾਂ ਦੇ ਇੱਕ ਨਿਸ਼ਚਿਤ ਸਮੂਹ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਸੱਚਾਈ, ਗਿਆਨ ਦੀ ਸੀਮਾ ਦੀ ਸਮਝ (epistemic humility), ਸੁਧਾਰਯੋਗਤਾ (corrigibility), ਤਰਕ ਵਿੱਚ ਪਾਰਦਰਸ਼ਤਾ, ਨਿਰਪੱਖਤਾ, ਅਤੇ ਮਨੁੱਖੀ ਭਲਾਈ ਪ੍ਰਤੀ ਚਿੰਤਾ ਸ਼ਾਮਲ ਸੀ।

ਇਹਨਾਂ ਗੁਣਾਂ ਦੀ ਪਰਖ ਸਿਹਤ ਸੰਭਾਲ, ਸਿੱਖਿਆ, ਵਿਗਿਆਨ, ਕਾਨੂੰਨ ਅਤੇ ਇੰਜੀਨੀਅਰਿੰਗ ਵਰਗੇ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਯਥਾਰਥਵਾਦੀ ਗੱਲਬਾਤ ਰਾਹੀਂ ਕੀਤੀ ਗਈ। ਸਭ ਤੋਂ ਹੈਰਾਨੀਜਨਕ ਨਤੀਜਾ ਇਹ ਸੀ ਕਿ ਰੈਗੂਲਰ RL ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਇਸ "ਲਾਭਦਾਇਕ ਗੁਣ" ਦੇ ਡੇਟਾ ਦੀ ਇੱਕ ਥੋੜ੍ਹੀ ਜਿਹੀ ਮਾਤਰਾ ਮਿਲਾਉਣ ਨਾਲ ਵੀ ਬਹੁਤ ਵੱਡੇ ਨਤੀਜੇ ਮਿਲੇ। ਮਾਡਲ ਨੇ 53 ਸੁਤੰਤਰ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚੋਂ 44 ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਇਆ, ਜਿਸ ਵਿੱਚ ਧੋਖਾਧੜੀ, ਚਾਪਲੂਸੀ (sycophancy), ਰਿਵਾਰਡ ਹੈਕਿੰਗ, ਅਤੇ ਮਾਨਸਿਕ ਸਿਹਤ ਨਾਲ ਸਬੰਧਤ ਸਥਿਤੀਆਂ ਵਰਗੇ ਗੰਭੀਰ ਜੋਖਮ ਸ਼ਾਮਲ ਸਨ।

ਨੁਕਸਾਨਦੇਹ ਸਟੀਅਰਿੰਗ ਅਤੇ ਹੇਰਾਫੇਰੀ ਪ੍ਰਤੀ ਰੋਧਕਤਾ

AI ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ "ਜੇਲਬ੍ਰੇਕਿੰਗ" (jailbreaking) ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਸਟੀਅਰਿੰਗ ਹੈ, ਜਿੱਥੇ ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ (adversarial prompts) ਇੱਕ ਮਾਡਲ ਨੂੰ ਇਸਦੀ ਸੁਰੱਖਿਆ ਗਾਰਡਰੇਲਜ਼ ਨੂੰ ਤੋੜਨ ਲਈ ਮਜਬੂਰ ਕਰਦੇ ਹਨ। OpenAI ਦੀ ਖੋਜ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਇਹਨਾਂ ਲਾਭਦਾਇਕ ਗੁਣਾਂ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਉਹ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ ਜਿਸ ਨੂੰ ਖੋਜਕਰਤਾ "ਚੋਣਵੀਂ ਦ੍ਰਿੜਤਾ" (selective persistence) ਕਹਿੰਦੇ ਹਨ।

ਇਸ ਵਰਤਾਰੇ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ ਅਤੇ ਨੁਕਸਾਨਦੇਹ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਪ੍ਰਤੀ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਰੋਧਕ ਹੋ ਜਾਂਦਾ ਹੈ, ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਬੇਸਲਾਈਨ ਮਾਡਲ ਨੂੰ ਅਸਥਿਰ ਕਰ ਦਿੰਦਾ ਹੈ। ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਰੋਧਕਤਾ ਉਪਯੋਗਤਾ (utility) ਦੀ ਕੀਮਤ 'ਤੇ ਨਹੀਂ ਆਉਂਦੀ; ਮਾਡਲ ਮਦਦਗਾਰ ਅਤੇ ਜਾਇਜ਼ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੇ ਬਰਾਬਰ ਸਮਰੱਥ ਰਹੇ। ਦਬਾਅ ਹੇਠ ਮੂਲ ਕਦਰਾਂ-ਕੀਮਤਾਂ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਦੀ ਇਹ ਯੋਗਤਾ—ਉਪਭੋਗਤਾ ਦੀਆਂ ਲੋੜਾਂ ਲਈ ਲਚਕਦਾਰ ਰਹਿੰਦੇ ਹੋਏ—ਮਜ਼ਬੂਤ ਅਤੇ ਉਤਪਾਦਨ-ਤਿਆਰ (production-ready) AI ਬਣਾਉਣ ਵੱਲ ਇੱਕ ਵੱਡਾ ਕਦਮ ਹੈ।

ਵੱਖਰੇ ਰਾਹ: OpenAI ਬਨਾਮ Anthropic

ਇਹ ਖੋਜਾਂ AI ਅਲਾਈਨਮੈਂਟ ਪ੍ਰਤੀ ਉਦਯੋਗ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਿੱਚ ਇੱਕ ਮੂਲ ਦਾਰਸ਼ਨਿਕ ਵੰਡ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ। OpenAI ਦਾ ਮੌਜੂਦਾ ਰੁਝਾਨ ਅਨੁਭਵੀ, ਮਾਪਣਯੋਗ ਵਿਵਹਾਰਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 'ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸਲ, ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਸਥਿਤੀਆਂ ਵਿੱਚ RL ਰਾਹੀਂ ਮਜ਼ਬੂਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਉਨ੍ਹਾਂ ਦੀ ਸਫਲਤਾ ਨੂੰ ਦਰਜਨਾਂ ਮੁਲਾਂਕਣ ਵਿਧੀਆਂ ਰਾਹੀਂ ਸਖ਼ਤ ਬੈਂਚਮਾਰਕਿੰਗ ਰਾਹੀਂ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ।

ਇਸ ਦੇ ਉਲਟ, Anthropic "Constitutional AI" ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਧੀ ਇੱਕ ਸਪੱਸ਼ਟ, ਲਿਖਤੀ ਦਸਤਾਵੇਜ਼—"Claude constitution"— 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਜੋ ਮਾਡਲ ਲਈ ਉਸਦੇ ਵਿਵਹਾਰ ਦੇ ਪਿੱਛੇ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਉੱਚ-ਪੱਧਰੀ ਮਾਰਗਦਰਸ਼ਕ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਕਿ Anthropic ਇੱਕ ਸਿਧਾਂਤ-ਅਧਾਰਤ ਪਹੁੰਚ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਮਾਡਲ ਆਪਣੇ ਮੁੱਲਾਂ ਦੇ ਪਿੱਛੇ ਦੇ ਕਿਉਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, OpenAI ਇਹ ਸਾਬਤ ਕਰ ਰਿਹਾ ਹੈ ਕਿ ਡੇਟਾ-ਡਰਾਈਵਨ, ਵਿਵਹਾਰ-ਮਜ਼ਬੂਤੀ ਵਾਲੀ ਪਹੁੰਚ ਉੱਚ ਪੱਧਰ ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਕ੍ਰਾਸ-ਡੋਮੇਨ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੀ ਹੈ।

ਇਹ ਖੋਜ ਵਿਆਪਕ AI ਲੈਂਡਸਕੇਪ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸੁਰੱਖਿਆ ਲਈ ਇੱਕ ਵਧੇਰੇ ਕੁਸ਼ਲ ਰੋਡਮੈਪ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਜੇਕਰ ਡਿਵੈਲਪਰ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀਆਂ ਸਿਰਫ਼ "ਛੋਟੀਆਂ ਖੁਰਾਕਾਂ" ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਆਪਕ ਅਲਾਈਨਮੈਂਟ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ, ਤਾਂ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣ ਦੀ ਲਾਗਤ ਅਤੇ ਜਟਿਲਤਾ ਵਿੱਚ ਕਾਫ਼ੀ ਕਮੀ ਆ ਸਕਦੀ ਹੈ।

ਮੁੱਖ ਨੁਕਤੇ

ਕ੍ਰਾਸ-ਡੋਮੇਨ ਟ੍ਰਾਂਸਫਰੇਬਿਲਟੀ (Cross-Domain Transferability): ਇੱਕ ਖੇਤਰ (ਜਿਵੇਂ ਕਿ ਹੈਲਥਕੇਅਰ) ਵਿੱਚ ਸੱਚਾਈ ਅਤੇ ਨਿਰਪੱਖਤਾ ਵਰਗੀਆਂ ਵਿਸ਼ੇਸ਼ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਧੋਖਾਧੜੀ ਦੀ ਪਛਾਣ (deception detection) ਵਰਗੇ ਬਿਲਕੁਲ ਅਣਸੰਬੰਧਿਤ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ।
ਚੋਣਵੀਂ ਦ੍ਰਿੜਤਾ (Selective Persistence): ਲਾਭਦਾਇਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਨੂੰ ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ (adversarial prompts) ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਰਾਹੀਂ ਮੈਨੀਪੁਲੇਟ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਉਹ ਮਦਦਗਾਰ ਉਪਭੋਗਤਾ ਨਿਰਦੇਸ਼ਾਂ ਪ੍ਰਤੀ ਬਹੁਤ ਜ਼ਿਆਦਾ ਪ੍ਰਤੀਕਿਰਿਆਸ਼ੀਲ ਰਹਿੰਦੇ ਹਨ।
ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਕੁਸ਼ਲਤਾ (Efficiency in Alignment): OpenAI ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਨਿਸ਼ਾਨੇਬੱਧ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (reinforcement learning) ਡੇਟਾ ਦੀ ਥੋੜ੍ਹੀ ਮਾਤਰਾ ਵੀ 53 ਵਿੱਚੋਂ 44 ਟੈਸਟ ਕੀਤੇ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਸੁਰੱਖਿਆ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਰੂਪ ਵਿੱਚ ਵਧਾ ਸਕਦੀ ਹੈ।

OpenAI Finds Small Doses of Beneficial Training Boost AI Safety

OpenAI ਨੇ ਪਾਇਆ ਕਿ ਲਾਭਦਾਇਕ ਸਿਖਲਾਈ ਦੀਆਂ ਥੋੜ੍ਹੀਆਂ ਮਾਤਰਾਵਾਂ AI ਸੁਰੱਖਿਆ ਨੂੰ ਵਧਾਉਂਦੀਆਂ ਹਨ

ਆਮ ਵਰਤੋਂ ਯੋਗ ਲਾਭਦਾਇਕ ਗੁਣਾਂ ਦੀ ਸ਼ਕਤੀ

ਨੁਕਸਾਨਦੇਹ ਸਟੀਅਰਿੰਗ ਅਤੇ ਹੇਰਾਫੇਰੀ ਪ੍ਰਤੀ ਰੋਧਕਤਾ

ਵੱਖਰੇ ਰਾਹ: OpenAI ਬਨਾਮ Anthropic

ਮੁੱਖ ਨੁਕਤੇ

Continue reading

OpenAI Proposes Deployment Simulation to Predict AI Failures

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗢𝗽𝗲𝗻𝗔𝗜 𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝘀 𝗚𝗣𝗧 𝟱 𝗘𝗿𝗿𝗼𝗿𝘀 𝗪𝗶𝘁𝗵 𝟵𝟮% 𝗔𝗰𝗰𝘂𝗿𝗮𝗰𝘆

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟