OpenAI ਨੇ ਪਾਇਆ ਕਿ ਲਾਭਦਾਇਕ ਸਿਖਲਾਈ ਦੀਆਂ ਥੋੜ੍ਹੀਆਂ ਮਾਤਰਾਵਾਂ AI ਸੁਰੱਖਿਆ ਨੂੰ ਵਧਾਉਂਦੀਆਂ ਹਨ
OpenAI ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਪਾਇਆ ਹੈ ਕਿ AI ਮਾਡਲਾਂ ਨੂੰ ਖਾਸ ਸਕਾਰਾਤਮਕ ਵਿਵਹਾਰਾਂ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਵਿਆਪਕ ਅਤੇ ਅਣਪਛਾਤੇ ਸੁਧਾਰ ਹੋ ਸਕਦੇ ਹਨ। ਇਹ ਵੱਡੀ ਸਫਲਤਾ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ "ਚੰਗਾ ਵਿਵਹਾਰ" ਬਹੁਤ ਜ਼ਿਆਦਾ ਤਬਦੀਲ ਹੋਣ ਯੋਗ ਹੈ, ਜੋ ਕਿ ਬਿਨਾਂ ਕਿਸੇ ਵੱਡੇ ਨਵੇਂ ਡੇਟਾਸੈਟ ਦੀ ਲੋੜ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਹੇਰਾਫੇਰੀ ਪ੍ਰਤੀ ਵਧੇਰੇ ਰੋਧਕ ਬਣਾਉਂਦਾ ਹੈ।
ਆਮ ਵਰਤੋਂ ਯੋਗ ਲਾਭਦਾਇਕ ਗੁਣਾਂ ਦੀ ਸ਼ਕਤੀ
OpenAI ਦੇ ਅਲਾਈਨਮੈਂਟ (alignment) ਪੇਜ 'ਤੇ ਪ੍ਰਕਾਸ਼ਿਤ ਇੱਕ ਤਾਜ਼ਾ ਅਧਿਐਨ ਵਿੱਚ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਕਿ ਕੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਦੌਰਾਨ ਖਾਸ ਸਕਾਰਾਤਮਕ ਗੁਣਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਨਾਲ ਉਹ ਅਣਜਾਣ ਸਥਿਤੀਆਂ ਵਿੱਚ ਵੀ ਲਾਗੂ ਹੋ ਸਕਦੇ ਹਨ। ਵਿਆਪਕ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀ ਬਜਾਏ, ਟੀਮ ਨੇ ਲੋੜੀਂਦੇ ਵਿਵਹਾਰਾਂ ਦੇ ਇੱਕ ਨਿਸ਼ਚਿਤ ਸਮੂਹ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਸੱਚਾਈ, ਗਿਆਨ ਦੀ ਸੀਮਾ ਦੀ ਸਮਝ (epistemic humility), ਸੁਧਾਰਯੋਗਤਾ (corrigibility), ਤਰਕ ਵਿੱਚ ਪਾਰਦਰਸ਼ਤਾ, ਨਿਰਪੱਖਤਾ, ਅਤੇ ਮਨੁੱਖੀ ਭਲਾਈ ਪ੍ਰਤੀ ਚਿੰਤਾ ਸ਼ਾਮਲ ਸੀ।
ਇਹਨਾਂ ਗੁਣਾਂ ਦੀ ਪਰਖ ਸਿਹਤ ਸੰਭਾਲ, ਸਿੱਖਿਆ, ਵਿਗਿਆਨ, ਕਾਨੂੰਨ ਅਤੇ ਇੰਜੀਨੀਅਰਿੰਗ ਵਰਗੇ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਯਥਾਰਥਵਾਦੀ ਗੱਲਬਾਤ ਰਾਹੀਂ ਕੀਤੀ ਗਈ। ਸਭ ਤੋਂ ਹੈਰਾਨੀਜਨਕ ਨਤੀਜਾ ਇਹ ਸੀ ਕਿ ਰੈਗੂਲਰ RL ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਇਸ "ਲਾਭਦਾਇਕ ਗੁਣ" ਦੇ ਡੇਟਾ ਦੀ ਇੱਕ ਥੋੜ੍ਹੀ ਜਿਹੀ ਮਾਤਰਾ ਮਿਲਾਉਣ ਨਾਲ ਵੀ ਬਹੁਤ ਵੱਡੇ ਨਤੀਜੇ ਮਿਲੇ। ਮਾਡਲ ਨੇ 53 ਸੁਤੰਤਰ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚੋਂ 44 ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਇਆ, ਜਿਸ ਵਿੱਚ ਧੋਖਾਧੜੀ, ਚਾਪਲੂਸੀ (sycophancy), ਰਿਵਾਰਡ ਹੈਕਿੰਗ, ਅਤੇ ਮਾਨਸਿਕ ਸਿਹਤ ਨਾਲ ਸਬੰਧਤ ਸਥਿਤੀਆਂ ਵਰਗੇ ਗੰਭੀਰ ਜੋਖਮ ਸ਼ਾਮਲ ਸਨ।
ਨੁਕਸਾਨਦੇਹ ਸਟੀਅਰਿੰਗ ਅਤੇ ਹੇਰਾਫੇਰੀ ਪ੍ਰਤੀ ਰੋਧਕਤਾ
AI ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ "ਜੇਲਬ੍ਰੇਕਿੰਗ" (jailbreaking) ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਸਟੀਅਰਿੰਗ ਹੈ, ਜਿੱਥੇ ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ (adversarial prompts) ਇੱਕ ਮਾਡਲ ਨੂੰ ਇਸਦੀ ਸੁਰੱਖਿਆ ਗਾਰਡਰੇਲਜ਼ ਨੂੰ ਤੋੜਨ ਲਈ ਮਜਬੂਰ ਕਰਦੇ ਹਨ। OpenAI ਦੀ ਖੋਜ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਇਹਨਾਂ ਲਾਭਦਾਇਕ ਗੁਣਾਂ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਉਹ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ ਜਿਸ ਨੂੰ ਖੋਜਕਰਤਾ "ਚੋਣਵੀਂ ਦ੍ਰਿੜਤਾ" (selective persistence) ਕਹਿੰਦੇ ਹਨ।
ਇਸ ਵਰਤਾਰੇ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ ਅਤੇ ਨੁਕਸਾਨਦੇਹ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਪ੍ਰਤੀ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਰੋਧਕ ਹੋ ਜਾਂਦਾ ਹੈ, ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਬੇਸਲਾਈਨ ਮਾਡਲ ਨੂੰ ਅਸਥਿਰ ਕਰ ਦਿੰਦਾ ਹੈ। ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਰੋਧਕਤਾ ਉਪਯੋਗਤਾ (utility) ਦੀ ਕੀਮਤ 'ਤੇ ਨਹੀਂ ਆਉਂਦੀ; ਮਾਡਲ ਮਦਦਗਾਰ ਅਤੇ ਜਾਇਜ਼ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੇ ਬਰਾਬਰ ਸਮਰੱਥ ਰਹੇ। ਦਬਾਅ ਹੇਠ ਮੂਲ ਕਦਰਾਂ-ਕੀਮਤਾਂ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਦੀ ਇਹ ਯੋਗਤਾ—ਉਪਭੋਗਤਾ ਦੀਆਂ ਲੋੜਾਂ ਲਈ ਲਚਕਦਾਰ ਰਹਿੰਦੇ ਹੋਏ—ਮਜ਼ਬੂਤ ਅਤੇ ਉਤਪਾਦਨ-ਤਿਆਰ (production-ready) AI ਬਣਾਉਣ ਵੱਲ ਇੱਕ ਵੱਡਾ ਕਦਮ ਹੈ।
ਵੱਖਰੇ ਰਾਹ: OpenAI ਬਨਾਮ Anthropic
ਇਹ ਖੋਜਾਂ AI ਅਲਾਈਨਮੈਂਟ ਪ੍ਰਤੀ ਉਦਯੋਗ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਿੱਚ ਇੱਕ ਮੂਲ ਦਾਰਸ਼ਨਿਕ ਵੰਡ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ। OpenAI ਦਾ ਮੌਜੂਦਾ ਰੁਝਾਨ ਅਨੁਭਵੀ, ਮਾਪਣਯੋਗ ਵਿਵਹਾਰਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 'ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸਲ, ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਸਥਿਤੀਆਂ ਵਿੱਚ RL ਰਾਹੀਂ ਮਜ਼ਬੂਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਉਨ੍ਹਾਂ ਦੀ ਸਫਲਤਾ ਨੂੰ ਦਰਜਨਾਂ ਮੁਲਾਂਕਣ ਵਿਧੀਆਂ ਰਾਹੀਂ ਸਖ਼ਤ ਬੈਂਚਮਾਰਕਿੰਗ ਰਾਹੀਂ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ।
ਇਸ ਦੇ ਉਲਟ, Anthropic "Constitutional AI" ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਧੀ ਇੱਕ ਸਪੱਸ਼ਟ, ਲਿਖਤੀ ਦਸਤਾਵੇਜ਼—"Claude constitution"— 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਜੋ ਮਾਡਲ ਲਈ ਉਸਦੇ ਵਿਵਹਾਰ ਦੇ ਪਿੱਛੇ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਉੱਚ-ਪੱਧਰੀ ਮਾਰਗਦਰਸ਼ਕ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਕਿ Anthropic ਇੱਕ ਸਿਧਾਂਤ-ਅਧਾਰਤ ਪਹੁੰਚ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਮਾਡਲ ਆਪਣੇ ਮੁੱਲਾਂ ਦੇ ਪਿੱਛੇ ਦੇ ਕਿਉਂ ਨੂੰ ਸਮਝਦਾ ਹੈ, OpenAI ਇਹ ਸਾਬਤ ਕਰ ਰਿਹਾ ਹੈ ਕਿ ਡੇਟਾ-ਡਰਾਈਵਨ, ਵਿਵਹਾਰ-ਮਜ਼ਬੂਤੀ ਵਾਲੀ ਪਹੁੰਚ ਉੱਚ ਪੱਧਰ ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਕ੍ਰਾਸ-ਡੋਮੇਨ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੀ ਹੈ।
ਇਹ ਖੋਜ ਵਿਆਪਕ AI ਲੈਂਡਸਕੇਪ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਸੁਰੱਖਿਆ ਲਈ ਇੱਕ ਵਧੇਰੇ ਕੁਸ਼ਲ ਰੋਡਮੈਪ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਜੇਕਰ ਡਿਵੈਲਪਰ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀਆਂ ਸਿਰਫ਼ "ਛੋਟੀਆਂ ਖੁਰਾਕਾਂ" ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਆਪਕ ਅਲਾਈਨਮੈਂਟ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ, ਤਾਂ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣ ਦੀ ਲਾਗਤ ਅਤੇ ਜਟਿਲਤਾ ਵਿੱਚ ਕਾਫ਼ੀ ਕਮੀ ਆ ਸਕਦੀ ਹੈ।
ਮੁੱਖ ਨੁਕਤੇ
- ਕ੍ਰਾਸ-ਡੋਮੇਨ ਟ੍ਰਾਂਸਫਰੇਬਿਲਟੀ (Cross-Domain Transferability): ਇੱਕ ਖੇਤਰ (ਜਿਵੇਂ ਕਿ ਹੈਲਥਕੇਅਰ) ਵਿੱਚ ਸੱਚਾਈ ਅਤੇ ਨਿਰਪੱਖਤਾ ਵਰਗੀਆਂ ਵਿਸ਼ੇਸ਼ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 'ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਨਾਲ ਧੋਖਾਧੜੀ ਦੀ ਪਛਾਣ (deception detection) ਵਰਗੇ ਬਿਲਕੁਲ ਅਣਸੰਬੰਧਿਤ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ।
- ਚੋਣਵੀਂ ਦ੍ਰਿੜਤਾ (Selective Persistence): ਲਾਭਦਾਇਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨਾਲ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਨੂੰ ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ (adversarial prompts) ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਰਾਹੀਂ ਮੈਨੀਪੁਲੇਟ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਉਹ ਮਦਦਗਾਰ ਉਪਭੋਗਤਾ ਨਿਰਦੇਸ਼ਾਂ ਪ੍ਰਤੀ ਬਹੁਤ ਜ਼ਿਆਦਾ ਪ੍ਰਤੀਕਿਰਿਆਸ਼ੀਲ ਰਹਿੰਦੇ ਹਨ।
- ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਕੁਸ਼ਲਤਾ (Efficiency in Alignment): OpenAI ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਨਿਸ਼ਾਨੇਬੱਧ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (reinforcement learning) ਡੇਟਾ ਦੀ ਥੋੜ੍ਹੀ ਮਾਤਰਾ ਵੀ 53 ਵਿੱਚੋਂ 44 ਟੈਸਟ ਕੀਤੇ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਸੁਰੱਖਿਆ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਰੂਪ ਵਿੱਚ ਵਧਾ ਸਕਦੀ ਹੈ।