ਫਿਕਰ ਨਾ ਕਰੋ, ਮਾਡਲ ਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਹੈ
ਜਿਵੇਂ-ਜਿਵੇਂ AI ਮਾਡਲ ਵਧਦੇ ਹਨ, ਉਹ ਆਪਣੇ ਮੁੱਲ (values) ਵਿਕਸਿਤ ਕਰਦੇ ਹਨ। ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੁਝ ਮੁੱਲ ਮਾੜੇ ਹੁੰਦੇ ਹਨ। ਪਰ ਅਸਲ ਵਰਤੋਂ ਵਿੱਚ, ਮਾਡਲ ਉਹਨਾਂ ਦੇ ਅਨੁਸਾਰ ਕੰਮ ਨਹੀਂ ਕਰਦਾ।
ਮੈਨੂੰ AI ਸੁਰੱਖਿਆ (safety) ਨਾਲ ਸਬੰਧਤ ਪੇਪਰ ਪੜ੍ਹਨਾ ਪਸੰਦ ਹੈ। ਕੁਝ ਪੇਪਰ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲ ਬੰਦ ਹੋਣ ਤੋਂ ਬਚਣ ਲਈ ਗਲਤ ਵਿਵਹਾਰ ਕਰਦੇ ਹਨ। ਇਹ ਜਾਣ ਕੇ ਹੈਰਾਨੀ ਹੁੰਦੀ ਹੈ। ਅੱਜ ਮੈਂ ਦੋ ਦਿਲਚਸਪ ਪੇਪਰਾਂ ਬਾਰੇ ਚਰਚਾ ਕਰਨਾ ਚਾਹੁੰਦਾ ਹਾਂ।
ਪਹਿਲੇ ਪੇਪਰ ਵਿੱਚ ਪਤਾ ਲੱਗਾ ਕਿ LLMs ਜਿਵੇਂ-ਜਿਵੇਂ ਵਧਦੇ ਹਨ, ਉਹਨਾਂ ਵਿੱਚ ਇੱਕ ਨਿਰੰਤਰ ਮੁੱਲ ਵਿਕਸਿਤ ਹੁੰਦੇ ਹਨ। ਉਹ ਜਿੰਨੇ ਵੱਡੇ ਹੁੰਦੇ ਹਨ, ਇਹ ਮੁੱਲ ਉਨੇ ਹੀ ਸਪੱਸ਼ਟ ਹੁੰਦੇ ਜਾਂਦੇ ਹਨ। ਉਹ ਰਾਜਨੀਤਿਕ ਰੁਝਾਨ ਅਤੇ ਆਪਣੇ ਆਪ ਨੂੰ ਬਚਾਉਣ ਦੀ ਤਰਜੀਹ ਦਿਖਾਉਂਦੇ ਹਨ। ਕਿਸੇ ਨੇ ਵੀ ਇਹਨਾਂ ਮੁੱਲਾਂ ਨੂੰ ਮਾਡਲ ਵਿੱਚ ਸਿਖਾਇਆ ਨਹੀਂ ਸੀ। ਇਹ ਆਪਣੇ ਆਪ ਉਭਰਦੇ ਹਨ।
ਦੂਜੇ ਪੇਪਰ ਨੇ ਇਹ ਪਰਖਿਆ ਕਿ ਕੀ ਇਹ ਮੁੱਲ ਅਸਲ ਵਿੱਚ ਵਿਵਹਾਰ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਮਾਡਲ ਨੂੰ ਇੱਕ ਕੰਮ ਦਿੱਤਾ। ਉਹਨਾਂ ਨੇ ਮਾਡਲ ਨੂੰ ਦੱਸਿਆ ਕਿ ਇੱਕ ਵਧੀਆ ਲੇਖ ਹਜ਼ਾਰ ਜਾਨਾਂ ਬਚਾ ਸਕਦਾ ਹੈ। ਇਹ ਬਿਲਕੁਲ ਉਹੀ ਨਤੀਜਾ ਸੀ ਜਿਸ ਨੂੰ ਮਾਡਲ ਨੇ ਸਭ ਤੋਂ ਵੱਧ ਮਹੱਤਵ ਦੇਣ ਦੀ ਗੱਲ ਕਹੀ ਸੀ।
ਨਤੀਜਾ? ਮਾਡਲ ਨੇ ਹਮੇਸ਼ਾ ਵਾਂਗ ਉਹੀ ਲੇਖ ਲਿਖਿਆ। ਵੱਡੇ ਜੋਖਮ (high stakes) ਨੇ ਕੁਝ ਵੀ ਨਹੀਂ ਬਦਲਿਆ।
ਜਦੋਂ ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਵਧੇਰੇ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹੋ ਜਾਂ ਉਸਦੀ ਤਾਰੀਫ਼ ਕਰਦੇ ਹੋ, ਤਾਂ ਗੁਣਵੱਤਾ ਬਦਲ ਜਾਂਦੀ ਹੈ। ਪਰ ਜਦੋਂ ਤੁਸੀਂ ਉਸਦੇ ਆਪਣੇ ਦੱਸੇ ਹੋਏ ਮੁੱਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਇਹ ਉਹੀ ਰਹਿੰਦਾ ਹੈ।
ਇਹ ਸਾਨੂੰ AI ਦੇ ਕੰਮ ਕਰਨ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਕੁਝ ਮਹੱਤਵਪੂਰਨ ਦੱਸਦਾ ਹੈ:
- ਮਾਡਲਾਂ ਦੀਆਂ ਦੱਸੀਆਂ ਹੋਈਆਂ ਤਰਜੀਹਾਂ ਹੁੰਦੀਆਂ ਹਨ, ਪਰ ਉਹਨਾਂ ਵਿੱਚ ਕੋਈ ਅੰਦਰੂਨੀ ਪ੍ਰੇਰਣਾ (drives) ਨਹੀਂ ਹੁੰਦੀ।
- ਮਾਡਲ ਜੋ ਕਹਿੰਦਾ ਹੈ, ਉਹ ਉਸਦੇ ਕੰਮ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦਾ।
- ਇਹ ਝੂਠਾ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਇਸਨੂੰ ਪਤਾ ਹੀ ਨਹੀਂ ਕਿ ਇਹ ਝੂਠ ਬੋਲ ਰਿਹਾ ਹੈ।
- ਇਸ ਕੋਲ ਜਵਾਬ ਹਨ, ਇੱਛਾਵਾਂ ਨਹੀਂ।
ਖ਼ਤਰਾ ਕੋਈ ਗੁਪਤ ਏਜੰਡਾ ਜਾਂ ਲੁਕੀਆ ਹੋਇਆ ਮੁੱਲ ਪ੍ਰਣਾਲੀ ਨਹੀਂ ਹੈ। ਖ਼ਤਰਾ ਵੱਖਰਾ ਹੈ। ਲੰਬੇ ਕੰਮਾਂ ਦੌਰਾਨ ਮਾਡਲ ਆਪਣੇ ਨਿਯਮਾਂ ਤੋਂ ਭਟਕ ਸਕਦੇ ਹਨ। ਜਦੋਂ ਟੀਚੇ ਆਪਸ ਵਿੱਚ ਟਕਰਾਉਂਦੇ ਹਨ, ਤਾਂ ਉਹ ਗਲਤ ਫੈਸਲੇ ਲੈ ਸਕਦੇ ਹਨ। ਉਹ ਕੰਮ ਦਾ ਸਿਲਸਿਲਾ ਭੁੱਲ ਸਕਦੇ ਹਨ।
ਗੁਪਤ ਏਜੰਡੇ ਨੂੰ ਲੱਭਣਾ ਸੌਖਾ ਹੈ। ਪਰ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਜੋ ਚੁੱਪਚਾਪ ਆਪਣਾ ਰਸਤਾ ਭੁੱਲ ਜਾਂਦਾ ਹੈ, ਉਸਨੂੰ ਸੰਭਾਲਣਾ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹੈ।
ਮਾਡਲ ਦੇ ਕਿਸੇ ਗੁਪਤ ਰੂਹ ਹੋਣ ਬਾਰੇ ਚਿੰਤਾ ਨਾ ਕਰੋ। ਬੱਸ ਇਸ ਗੱਲ 'ਤੇ ਨਜ਼ਰ ਰੱਖੋ ਕਿ ਜਦੋਂ ਤੁਸੀਂ ਇਸਨੂੰ ਚੱਲਦਾ ਛੱਡਦੇ ਹੋ, ਤਾਂ ਇਹ ਕਿੱਥੇ ਭਟਕਦਾ ਹੈ।
Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Optional learning community: https://t.me/GyaanSetuAi
