ਮਾਰਗਰੇਟ ਐਟਵੁੱਡ ਦੀ ਚੇਤਾਵਨੀ: AI ਅਜੇ ਵੀ "Garbage In, Garbage Out" ਵਿੱਚ ਕਿਉਂ ਫਸਿਆ ਹੋਇਆ ਹੈ
ਪ੍ਰਸਿੱਧ ਲੇਖਿਕਾ ਮਾਰਗਰੇਟ ਐਟਵੁੱਡ ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ large language models ਦੀ ਸਖ਼ਤ ਆਲੋਚਨਾ ਕੀਤੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਉਹਨਾਂ ਨੇ ਸਹੀ ਜਾਣਕਾਰੀ ਅਤੇ ਡੇਟਾ ਦੀ ਸ਼ੁੱਧਤਾ ਨਾਲ ਜੁੜੇ ਲਗਾਤਾਰ ਸੰਘਰਸ਼ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਹੈ। ਉਹਨਾਂ ਦਾ ਅਨੁਭਵ ਮੌਜੂਦਾ AI ਯੁੱਗ ਦੇ ਇੱਕ ਬੁਨਿਆਦੀ ਸੱਚ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ: ਇੱਥੋਂ ਤੱਕ ਕਿ ਸਭ ਤੋਂ ਉੱਨਤ ਮਾਡਲਾਂ ਵੀ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਦੁਆਰਾ ਸੀਮਤ ਹਨ।
Claude ਦਾ ਪ੍ਰਯੋਗ: Hallucinations ਤੋਂ ਇੱਕ ਸਬਕ
ਪੋਰਟੋ, ਪੁਰਤਗਾਲ ਵਿੱਚ ਬੈਬਲ ਲਿਟਰਰੀ ਐਂਡ ਕਲਚਰਲ ਫੈਸਟੀਵਲ ਵਿੱਚ ਬੋਲਦੇ ਹੋਏ, Handmaid’s Tale ਦੀ ਲੇਖਿਕਾ ਨੇ Anthropic ਦੇ Claude ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਆਪਣੇ ਇੱਕ ਅਨੁਭਵ ਬਾਰੇ ਦੱਸਿਆ। ਬ੍ਰਿਟਿਸ਼ ਡਿਟੈਕਟਿਵ ਸੀਰੀਜ਼ Father Brown ਬਾਰੇ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਚੈਟਬੋਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਐਟਵੁੱਡ ਦੀ ਕੋਸ਼ਿਸ਼ ਇੱਕ ਅਜਿਹੀ ਅਸਫਲਤਾ ਵਿੱਚ ਰਹੀ ਜੋ "hallucination" ਦੇ ਸੰਕਲਪ ਨੂੰ ਬਿਲਕੁਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਦਰਸਾਉਂਦੀ ਹੈ।
ਐਟਵੁੱਡ ਦੇ ਅਨੁਸਾਰ, ਮਾਡਲ ਨੇ ਗਲਤ ਜਾਣਕਾਰੀ ਦਿੱਤੀ, ਜੋ ਅਸਲ ਵਿੱਚ ਉਪਭੋਗਤਾ ਨਾਲ "ਝੂਠ" ਬੋਲਣ ਦੇ ਬਰਾਬਰ ਸੀ। ਉਹਨਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ LLM ਨੇ ਸ਼ਾਇਦ ਟੈਲੀਵਿਜ਼ਨ ਰਿਵਿਊਆਂ ਦੀ ਭਾਰੀ ਮਾਤਰਾ ਨੂੰ ਉੱਪਰ-ਉੱਪਰੋਂ ਪੜ੍ਹਿਆ ਅਤੇ ਉਸ ਵਿੱਚੋਂ ਨਮੂਨੇ ਲਏ ਸਨ, ਪਰ ਕਿਉਂਕਿ ਆਨਲਾਈਨ ਆਲੋਚਨਾ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਸਪੋਇਲਰਜ਼ (spoilers) ਤੋਂ ਬਚਿਆ ਜਾਂਦਾ ਹੈ, ਮਾਡਲ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦੇ ਪੈਟਰਨਾਂ ਦੁਆਰਾ ਗੁਮਰਾਹ ਹੋ ਗਿਆ। ਇਹ ਤਕਨੀਕੀ ਪੱਖ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਮੁੱਖ ਚੁਣੌਤੀ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: LLMs ਸੰਭਾਵਨਾਤਮਕ ਇੰਜਣ (probabilistic engines) ਹਨ ਜੋ ਤੱਥਾਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਦੀ ਬਜਾਏ ਪੈਟਰਨ ਮੈਚਿੰਗ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਅਕਸਰ ਭਰੋਸੇਯੋਗ ਲੱਗਣ ਵਾਲੇ ਪਰ ਗਲਤ ਨਤੀਜੇ ਮਿਲਦੇ ਹਨ।
ਡੇਟਾ ਦੀ ਦੁਬਿਧਾ: Garbage In, Garbage Out
ਐਟਵੁੱਡ ਦੀ ਆਲੋਚਨਾ ਕੰਪਿਊਟਿੰਗ ਦੇ ਇੱਕ ਸਦੀਵੀ ਸਿਧਾਂਤ 'ਤੇ ਕੇਂਦਰਿਤ ਹੈ: "garbage in, garbage out" (ਜੇਕਰ ਅੰਦਰ ਗਲਤ ਜਾਣਕਾਰੀ ਜਾਵੇਗੀ, ਤਾਂ ਬਾਹਰ ਵੀ ਗਲਤ ਹੀ ਨਿਕਲੇਗੀ)। ਉਹਨਾਂ ਨੇ ਦੱਸਿਆ ਕਿ LLMs ਨੂੰ ਸਕ੍ਰੈਪ ਕੀਤੇ ਗਏ, ਪਹਿਲਾਂ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਅਤੇ ਸੰਭਵ ਤੌਰ 'ਤੇ ਪੁਰਾਣੇ ਹੋਏ ਡੇਟਾ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਜਦੋਂ ਕਿਸੇ ਮਾਡਲ ਨੂੰ ਅਧੂਰਾ, ਪੱਖਪਾਤੀ ਜਾਂ ਤਰਕਹੀਣ ਡੇਟਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਨਤੀਜਾ ਲਾਜ਼ਮੀ ਤੌਰ 'ਤੇ ਉਹਨਾਂ ਕਮੀਆਂ ਨੂੰ ਦਰਸਾਏਗਾ।
ਵਿਆਪਕ AI ਖੇਤਰ ਲਈ, ਇਹ ਇੱਕ ਯਾਦ ਦਿਵਾਉਣ ਵਾਲੀ ਗੱਲ ਹੈ ਕਿ ਮਾਡਲ ਪੈਰਾਮੀਟਰਾਂ ਦਾ ਘੇਰਾ ਵਧਾਉਣਾ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਦਾ ਬਦਲ ਨਹੀਂ ਹੋ ਸਕਦਾ। ਜਿਵੇਂ-ਜਿਵੇਂ ਡਿਵੈਲਪਰ ਤਰਕ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਵਧਾਉਣ ਲਈ ਵੱਡੇ ਡੇਟਾ ਸੈੱਟਾਂ ਦੀ ਮੰਗ ਕਰ ਰਹੇ ਹਨ, ਉਹਨਾਂ ਡੇਟਾ ਸੈੱਟਾਂ ਦੇ ਅੰਦਰਲੀ "ਨੋਇਜ਼" (noise)—ਜਿਵੇਂ ਕਿ ਐਟਵੁੱਡ ਦੁਆਰਾ ਦੱਸੇ ਗਏ ਰਿਵਿਊਆਂ ਵਿੱਚ ਕਹਾਣੀ ਦੇ ਸਪੋਇਲਰਜ਼ ਦੀ ਘਾਟ—ਅਜਿਹੀਆਂ ਪ੍ਰਣਾਲISਗਤ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ Claude ਵਰਗੇ ਉੱਨਤ ਆਰਕੀਟੈਕਚਰ ਵੀ ਆਸਾਨੀ ਨਾਲ ਦੂਰ ਨਹੀਂ ਕਰ ਸਕਦੇ।
ਨੈਤਿਕ ਚਿੰਤਾ: ਮੌਕਾਵਾਦ ਬਨਾਮ ਰਚਨਾਤਮਕਤਾ
ਤਕਨੀਕੀ ਸੀਮਾਵਾਂ ਤੋਂ ਇਲਾਵਾ, ਐਟਵੁੱਡ ਨੇ AI ਅਪਣਾਉਣ ਦੇ ਮਨੁੱਖੀ ਪਹਿਲੂ 'ਤੇ ਵੀ ਚਰਚਾ ਕੀਤੀ। ਉਹਨਾਂ ਨੇ ਉਹਨਾਂ ਲੋਕਾਂ ਨੂੰ "ਮੌਕਾਵਾਦੀ" (opportunists) ਕਿਹਾ ਜੋ ਅਸਲ ਰਚਨਾ ਜਾਂ ਖੋਜ ਦੀ ਮਿਹਨਤ ਤੋਂ ਬਚਣ ਲਈ AI 'ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਉਹਨਾਂ ਨੇ ਚੇਤਾਵਨੀ ਦਿੱਤੀ ਕਿ ਅਜਿਹੀ AI-ਨਿਰਮਿਤ ਸਮੱਗਰੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ "ਧੋਖਾ" ਦੇਣ ਦਾ ਲਾਲਚ ਉਹਨਾਂ ਉਦਯੋਗਾਂ ਲਈ ਇੱਕ ਵਧਦੀ ਚਿੰਤਾ ਹੈ ਜੋ ਮਨੁੱਖੀ ਬੁੱਧੀ ਅਤੇ ਬਾਰੀਕੀ 'ਤੇ ਨਿਰਭਰ ਹਨ।
ਸੰਸਥਾਪਕਾਂ (founders) ਅਤੇ ਤਕਨੀਕੀ ਪੇਸ਼ੇਵਰਾਂ ਲਈ, ਇਹ ਅੰਤਰ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਹਾਲਾਂਕਿ AI ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਉਤਪਾਦਕਤਾ ਸਾਧਨ ਵਜੋਂ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਐਟਵੁੱਡ ਦਾ ਇਹ ਨਿਰੀਖਣ ਕਿ "ਉਹ ਲੋਕ ਵੀ ਜੋ ਇਸਦੀ ਵਰਤੋਂ ਵਪਾਰਕ ਕਾਰਨਾਂ ਲਈ ਕਰਦੇ ਹਨ, ਉਹਨਾਂ ਨੂੰ ਇਸਦੀ ਜਾਂਚ ਕਰਨੀ ਪੈਂਦੀ ਹੈ" ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਕਿ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ AI ਵਰਕਫਲੋ ਦਾ ਇੱਕ ਅਨਿੱਖੜਵਾਂ ਅੰਗ ਬਣੀ ਹੋਈ ਹੈ। ਪੂਰੀ ਤਰ੍ਹਾਂ ਸੁਤੰਤਰ ਅਤੇ ਗਲਤੀ-ਰਹਿਤ AI ਦਾ ਯੁੱਗ ਅਜੇ ਵੀ ਇੱਕ ਦੂਰ ਦੀ ਸੰਭਾਵਨਾ ਹੈ, ਅਤੇ ਸੱਚਾਈ ਦੀ ਜ਼ਿੰਮੇਵਾਰੀ ਉਪਭੋਗਤਾ ਦੀ ਹੀ ਰਹਿੰਦੀ ਹੈ।
ਮੁੱਖ ਨੁਕਤੇ
- ਡੇਟਾ ਦੀ ਸ਼ੁੱਧਤਾ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹੈ: "garbage in, garbage out" ਦਾ ਸਿਧਾਂਤ LLMs ਲਈ ਸਭ ਤੋਂ ਵੱਡੀ ਰੁਕਾਵਟ ਬਣਿਆ ਹੋਇਆ ਹੈ, ਕਿਉਂਕਿ ਮਾਡਲ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਮੁਕੰਮਲਤਾ ਦੁਆਰਾ ਸੀਮਤ ਹੁੰਦੇ ਹਨ।
- Hallucination ਦਾ ਜਾਲ: Anthropic ਦੇ Claude ਵਰਗੇ ਉੱਨਤ ਮਾਡਲ ਵੀ ਸਧਾਰਨ ਤੱਥਾਂ ਦੀ ਪ੍ਰਾਪਤੀ ਵਿੱਚ ਅਸਫਲ ਹੋ ਸਕਦੇ ਹਨ ਜੇਕਰ ਉਹਨਾਂ ਦੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਮੌਜੂਦ ਪੈਟਰਨ ਗੁਮਰਾਹਕੁੰਨ ਹੋਣ।
- ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਦੀ ਲੋੜ: AI ਨੂੰ ਮਨੁੱਖੀ ਮੁਹਾਰਤ ਅਤੇ ਆਲੋਚਨਾਤਮਕ ਸੋਚ ਦੇ ਬਦਲ ਵਜੋਂ ਨਹੀਂ, ਸਗੋਂ ਇੱਕ ਅਜਿਹੇ ਸਾਧਨ ਵਜੋਂ ਦੇਖਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸ ਨੂੰ ਲਗਾਤਾਰ ਪੁਸ਼ਟੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
