AI ਡਿਟੈਕਸ਼ਨ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਸੰਕਟ: ਕੁਝ ਟੂਲ ਸਫਲ ਹੁੰਦੇ ਹਨ, ਦੂਜੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ
Authors Guild ਦੇ ਇੱਕ ਤਾਜ਼ਾ ਅਧਿਐਨ ਨੇ AI ਲਿਖਣ ਵਾਲੇ ਡਿਟੈਕਟਰਾਂ (detectors) ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਸਾਹਮਣੇ ਲਿਆਂਦਾ ਹੈ, ਜਿਸ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਜਿੱਥੇ ਕੁਝ ਟੂਲ ਬਹੁਤ ਸਹੀ ਹਨ, ਉੱਥੇ ਹੀ ਦੂਜੇ ਮੂਲ ਰੂਪ ਵਿੱਚ ਖ਼ਰਾਬ ਹਨ। ਇਹ ਅਸਥਿਰਤਾ ਉਨ੍ਹਾਂ ਪੇਸ਼ੇਵਰ ਲੇਖਕਾਂ ਲਈ ਇੱਕ ਵੱਡਾ ਖ਼ਤਰਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਰੋਜ਼ੀ-ਰੋਟੀ ਇਹ ਸਾਬਤ ਕਰਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਕੰਮ ਮਨੁੱਖ ਦੁਆਰਾ ਲਿਖਿਆ ਗਿਆ ਹੈ।
ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪਾੜਾ: ਸੰਪੂਰਨਤਾ ਤੋਂ ਲੈ ਕੇ ਪੂਰੀ ਅਸਫਲਤਾ ਤੱਕ
Authors Guild ਨੇ 2020 ਅਤੇ 2022 ਦੇ ਵਿਚਕਾਰ ਪ੍ਰਕਾਸ਼ਿਤ ਦਸ ਲੇਖਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਸਖ਼ਤ ਟੈਸਟ ਕੀਤਾ—ਜੋ ਕਿ generative AI ਦੇ ਮੁੱਖ ਧਾਰਾ ਬਣਨ ਤੋਂ ਕਈ ਸਾਲ ਪਹਿਲਾਂ ਦੇ ਹਨ। "pre-AI" ਮਨੁੱਖੀ ਟੈਕਸਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਇਸ ਅਧਿਐਨ ਨੇ false positive ਦਰਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਇੱਕ ਸਪਸ਼ਟ ਅਧਾਰ (baseline) ਪ੍ਰਦਾਨ ਕੀਤਾ।
ਨਤੀਜੇ ਬਹੁਤ ਵੱਖੋ-ਵੱਖਰੇ ਸਨ। Pangram ਅਤੇ Grammarly ਸਭ ਤੋਂ ਭਰੋਸੇਯੋਗ ਵਜੋਂ ਉਭਰੇ, ਜਿਨ੍ਹਾਂ ਨੇ ਹਰ ਇੱਕ ਮਨੁੱਖ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਟੈਕਸਟ ਨੂੰ ਸਹੀ ਤਰ੍ਹਾਂ ਮਨੁੱਖੀ (0.0% AI ਸਕੋਰ) ਵਜੋਂ ਪਛਾਣਿਆ। Originality.ai ਨੇ ਵੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਅਤੇ ਹਰ ਪੱਖੋਂ ਉੱਚੀ ਸ਼ੁੱਧਤਾ ਬਣਾਈ ਰੱਖੀ।
ਇਸਦੇ ਉਲਟ, Sidekicker.ai ਬੁਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ ਰਿਹਾ। ਟੈਸਟ ਵਿੱਚ ਹਰ ਇੱਕ ਮਨੁੱਖੀ ਲੇਖ ਨੂੰ "ਜ਼ਿਆਦਾਤਰ AI-ਨਿਰਮਿਤ" ਵਜੋਂ ਫਲੈਗ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਵਿੱਚ ਦੋ ਖਾਸ ਲੇਖਾਂ ਨੂੰ 100% AI ਸਕੋਰ ਮਿਲਿਆ। ZeroGPT ਵੀ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਸਾਬਤ ਹੋਇਆ, ਜਿਸ ਨੇ ਅਕਸਰ ਉਨ੍ਹਾਂ ਟੈਕਸਟਾਂ ਲਈ ਉੱਚੀ AI ਪ੍ਰਤੀਸ਼ਤਤਾ ਦੱਸੀ ਜੋ ਨਿਸ਼ਚਿਤ ਤੌਰ 'ਤੇ ਮਨੁੱਖੀ ਸਨ, ਜਿਵੇਂ ਕਿ "Erdrich Pulitzer Prize" ਲੇਖ, ਜਿਸ ਨੂੰ ਇਸਨੇ 76.3% AI ਸੰਭਾਵਨਾ ਦੇ ਨਾਲ ਫਲੈਗ ਕੀਤਾ ਸੀ।
ਪੇਸ਼ੇਵਰ ਲਿਖਤ ਦਾ ਵਿਰੋਧਾਭਾਸ
ਇਹ ਅਧਿਐਨ ਇੱਕ ਚਿੰਤਾਜਨਕ ਤਕਨੀਕੀ ਵਿਰੋਧਾਭਾਸ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਇੱਕ ਮਨੁੱਖੀ ਲੇਖਕ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਕੁਸ਼ਲ ਹੁੰਦਾ ਹੈ, ਉਸਦੇ ਖ਼ਰਾਬ ਡਿਟੈਕਟਰਾਂ ਦੁਆਰਾ ਫਲੈਗ ਕੀਤੇ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਉਨੀ ਹੀ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ। ਪੇਸ਼ੇਵਰ ਲਿਖਤ ਸਪਸ਼ਟਤਾ, ਸੰਖੇਪਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ—ਇਹੀ ਉਹ ਅੰਕੜਾਤਮਕ ਪੈਟਰਨ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਨਕਲ ਕਰਨ ਲਈ Large Language Models (LLMs) ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ।
ਕਿਉਂਕਿ AI ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਮਨੁੱਖੀ ਲਿਖਤ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਲਈ ਇੱਕ ਮਾਹਰ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਵਾਕ ਦਾ "ਫਿੰਗਰਪ੍ਰਿੰਟ" (fingerprint) ਲਗਭਗ AI-ਨਿਰਮਿਤ ਵਾਕ ਵਰਗਾ ਹੀ ਦਿਖਾਈ ਦੇ ਸਕਦਾ ਹੈ। ਇਹ ਇੱਕ ਅਜਿਹਾ ਜੋਖਮ ਭਰਿਆ ਮਾਹੌਲ ਬਣਾਉਂਦਾ ਹੈ ਜਿੱਥੇ ਇੱਕ ਲੇਖਕ, ਜਿਸਨੇ ਆਪਣੀ ਕਲਾ ਨੂੰ ਨਿਖਾਰਨ ਵਿੱਚ ਦਹਾਕੇ ਬਿਤਾਏ ਹਨ, Sidekicker ਵਰਗੇ ਟੂਲ ਦੇ ਗਲਤ (false positive) ਨਤੀਜੇ ਕਾਰਨ ਆਪਣੇ ਕੰਟਰੈਕਟ ਗੁਆ ਸਕਦਾ ਹੈ ਜਾਂ ਆਪਣੀ ਸਾਖ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦਾ ਹੈ।
"ਬਲੈਕ ਬਾਕਸ" ਸਮੱਸਿਆ ਅਤੇ ਡਿਟੈਕਸ਼ਨ ਦਾ ਭਵਿੱਖ
ਸਫਲ ਟੂਲ ਵੀ ਪਾਰਦਰਸ਼ਤਾ ਦੇ ਸਬੰਧ ਵਿੱਚ ਆਲੋਚਨਾ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹਨ। Pangram ਦੇ CEO Max Spero ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਡਿਟੈਕਟਰ ਅਸਲ ਵਿੱਚ ਇੱਕ "ਬਲੈਕ ਬਾਕਸ" ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਇਹਦਾ ਵਿਸਤ੍ਰਿਤ ਵਿਆਖਿਆ ਨਹੀਂ ਦੇ ਸਕਦਾ ਕਿ ਕਿਸੇ ਖਾਸ ਟੈਕਸਟ ਨੂੰ ਕਿਉਂ ਫਲੈਗ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਉਹ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਮਨੁੱਖ LLM ਦੀ ਇਕਸਾਰਤਾ ਨਾਲੋਂ ਵਧੇਰੇ ਵਿਭਿੰਨਤਾ ਅਤੇ ਤਰਕ ਦੇ ਢਾਂਚੇ ਨਾਲ ਲਿਖਦੇ ਹਨ, ਪਰ ਵਿਆਖਿਆ ਦੀ ਘਾਟ ਜਵਾਬਦੇਹੀ ਲਈ ਇੱਕ ਰੁਕਾਵਟ ਬਣੀ ਹੋਈ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸ ਟੈਸਟ ਵਿੱਚ Pangram ਅਤੇ Grammarly ਦੀ ਸਫਲਤਾ ਮੁੱਖ ਤੌਰ 'ਤੇ ਇਹ ਸਾਬਤ ਕਰਦੀ ਹੈ ਕਿ ਉਹ false positives ਤੋਂ ਬਚਣ (ਮਨੁੱਖਾਂ ਨੂੰ ਫਲੈਗ ਨਾ ਕਰਨ) ਵਿੱਚ ਚੰਗੇ ਹਨ। ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਉਹ AI ਨੂੰ ਫੜਨ (ਮਸ਼ੀਨੀ ਟੈਕਸਟ ਦੀ ਪਛਾਣ ਕਰਨ) ਵਿੱਚ ਵੀ ਉਨੇ ਹੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਣ।
ਜਿਵੇਂ ਕਿ ਉਦਯੋਗ "ਲਿਖਣ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਰਨ" ਅਤੇ "ਸੋਚਣ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਰਨ" ਵਿਚਕਾਰ ਅੰਤਰ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਿਹਾ ਹੈ, Authors Guild ਚੇਤਾਵਨੀ ਦਿੰਦਾ ਹੈ ਕਿ ਡਿਟੈਕਸ਼ਨ ਟੂਲ ਕਦੇ ਵੀ ਪੇਸ਼ੇਵਰ ਫੈਸਲਿਆਂ ਦਾ ਇਕਲੌਤਾ ਆਧਾਰ ਨਹੀਂ ਹੋਣੇ ਚਾਹੀਦੇ।
ਮੁੱਖ ਗੱਲਾਂ
- ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਅਤਿ ਦੀ ਵੰਨਗੀ: ਜਦੋਂ ਕਿ Pangram ਅਤੇ Grammarly ਨੇ ਟੈਸਟ ਵਿੱਚ 0% false positive ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ, Sidekicker.ai ਨੇ 100% ਮਨੁੱਖੀ ਟੈਕਸਟ ਨੂੰ AI-ਨਿਰਮਿਤ ਵਜੋਂ ਫਲੈਗ ਕੀਤਾ।
- ਪੇਸ਼ੇਵਰ ਸਜ਼ਾ: ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ, ਸਟੀਕ ਮਨੁੱਖੀ ਲਿਖਤ AI ਆਉਟਪੁੱਟ ਨਾਲ ਅੰਕੜਾਤਮਕ ਸਮਾਨਤਾਵਾਂ ਰੱਖਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਹਰ ਲੇਖਕ ਡਿਟੈਕਸ਼ਨ ਦੀਆਂ ਗਲਤੀਆਂ ਦੇ ਸ਼ਿਕਾਰ ਹੋ ਸਕਦੇ ਹਨ।
- ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਦੀ ਮੰਗ: Authors Guild ਪ੍ਰਕਾਸ਼ਕਾਂ ਨੂੰ ਸਲਾਹ ਦਿੰਦਾ ਹੈ ਕਿ ਉਹ ਡਿਟੈਕਟਰਾਂ ਦੀ ਵਰਤੋਂ ਸਿਰਫ਼ ਪੂਰਕ ਸਾਧਨਾਂ ਵਜੋਂ ਕਰਨ ਅਤੇ ਲੇਖਕਾਂ ਨੂੰ ਆਪਣੇ ਕੰਮ ਦਾ ਬਚਾਅ ਕਰਨ ਦਾ ਮੌਕਾ ਦੇਣ।
