AI Detection Reliability Crisis: Some Tools Pass, Others Fail Completely

Translated for your language. Read the original.

AI-assisted draft.

AI Detection Reliability Crisis: Some Tools Pass, Others Fail Completely

In this article

AI ਡਿਟੈਕਸ਼ਨ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਸੰਕਟ: ਕੁਝ ਟੂਲ ਸਫਲ ਹੁੰਦੇ ਹਨ, ਦੂਜੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ

Authors Guild ਦੇ ਇੱਕ ਤਾਜ਼ਾ ਅਧਿਐਨ ਨੇ AI ਲਿਖਣ ਵਾਲੇ ਡਿਟੈਕਟਰਾਂ (detectors) ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਸਾਹਮਣੇ ਲਿਆਂਦਾ ਹੈ, ਜਿਸ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਜਿੱਥੇ ਕੁਝ ਟੂਲ ਬਹੁਤ ਸਹੀ ਹਨ, ਉੱਥੇ ਹੀ ਦੂਜੇ ਮੂਲ ਰੂਪ ਵਿੱਚ ਖ਼ਰਾਬ ਹਨ। ਇਹ ਅਸਥਿਰਤਾ ਉਨ੍ਹਾਂ ਪੇਸ਼ੇਵਰ ਲੇਖਕਾਂ ਲਈ ਇੱਕ ਵੱਡਾ ਖ਼ਤਰਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਰੋਜ਼ੀ-ਰੋਟੀ ਇਹ ਸਾਬਤ ਕਰਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਕੰਮ ਮਨੁੱਖ ਦੁਆਰਾ ਲਿਖਿਆ ਗਿਆ ਹੈ।

ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪਾੜਾ: ਸੰਪੂਰਨਤਾ ਤੋਂ ਲੈ ਕੇ ਪੂਰੀ ਅਸਫਲਤਾ ਤੱਕ

Authors Guild ਨੇ 2020 ਅਤੇ 2022 ਦੇ ਵਿਚਕਾਰ ਪ੍ਰਕਾਸ਼ਿਤ ਦਸ ਲੇਖਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਸਖ਼ਤ ਟੈਸਟ ਕੀਤਾ—ਜੋ ਕਿ generative AI ਦੇ ਮੁੱਖ ਧਾਰਾ ਬਣਨ ਤੋਂ ਕਈ ਸਾਲ ਪਹਿਲਾਂ ਦੇ ਹਨ। "pre-AI" ਮਨੁੱਖੀ ਟੈਕਸਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਇਸ ਅਧਿਐਨ ਨੇ false positive ਦਰਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਇੱਕ ਸਪਸ਼ਟ ਅਧਾਰ (baseline) ਪ੍ਰਦਾਨ ਕੀਤਾ।

ਨਤੀਜੇ ਬਹੁਤ ਵੱਖੋ-ਵੱਖਰੇ ਸਨ। Pangram ਅਤੇ Grammarly ਸਭ ਤੋਂ ਭਰੋਸੇਯੋਗ ਵਜੋਂ ਉਭਰੇ, ਜਿਨ੍ਹਾਂ ਨੇ ਹਰ ਇੱਕ ਮਨੁੱਖ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਟੈਕਸਟ ਨੂੰ ਸਹੀ ਤਰ੍ਹਾਂ ਮਨੁੱਖੀ (0.0% AI ਸਕੋਰ) ਵਜੋਂ ਪਛਾਣਿਆ। Originality.ai ਨੇ ਵੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਅਤੇ ਹਰ ਪੱਖੋਂ ਉੱਚੀ ਸ਼ੁੱਧਤਾ ਬਣਾਈ ਰੱਖੀ।

ਇਸਦੇ ਉਲਟ, Sidekicker.ai ਬੁਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ ਰਿਹਾ। ਟੈਸਟ ਵਿੱਚ ਹਰ ਇੱਕ ਮਨੁੱਖੀ ਲੇਖ ਨੂੰ "ਜ਼ਿਆਦਾਤਰ AI-ਨਿਰਮਿਤ" ਵਜੋਂ ਫਲੈਗ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਵਿੱਚ ਦੋ ਖਾਸ ਲੇਖਾਂ ਨੂੰ 100% AI ਸਕੋਰ ਮਿਲਿਆ। ZeroGPT ਵੀ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਸਾਬਤ ਹੋਇਆ, ਜਿਸ ਨੇ ਅਕਸਰ ਉਨ੍ਹਾਂ ਟੈਕਸਟਾਂ ਲਈ ਉੱਚੀ AI ਪ੍ਰਤੀਸ਼ਤਤਾ ਦੱਸੀ ਜੋ ਨਿਸ਼ਚਿਤ ਤੌਰ 'ਤੇ ਮਨੁੱਖੀ ਸਨ, ਜਿਵੇਂ ਕਿ "Erdrich Pulitzer Prize" ਲੇਖ, ਜਿਸ ਨੂੰ ਇਸਨੇ 76.3% AI ਸੰਭਾਵਨਾ ਦੇ ਨਾਲ ਫਲੈਗ ਕੀਤਾ ਸੀ।

ਪੇਸ਼ੇਵਰ ਲਿਖਤ ਦਾ ਵਿਰੋਧਾਭਾਸ

ਇਹ ਅਧਿਐਨ ਇੱਕ ਚਿੰਤਾਜਨਕ ਤਕਨੀਕੀ ਵਿਰੋਧਾਭਾਸ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਇੱਕ ਮਨੁੱਖੀ ਲੇਖਕ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਕੁਸ਼ਲ ਹੁੰਦਾ ਹੈ, ਉਸਦੇ ਖ਼ਰਾਬ ਡਿਟੈਕਟਰਾਂ ਦੁਆਰਾ ਫਲੈਗ ਕੀਤੇ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਉਨੀ ਹੀ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ। ਪੇਸ਼ੇਵਰ ਲਿਖਤ ਸਪਸ਼ਟਤਾ, ਸੰਖੇਪਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ—ਇਹੀ ਉਹ ਅੰਕੜਾਤਮਕ ਪੈਟਰਨ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਨਕਲ ਕਰਨ ਲਈ Large Language Models (LLMs) ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ।

ਕਿਉਂਕਿ AI ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਮਨੁੱਖੀ ਲਿਖਤ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਲਈ ਇੱਕ ਮਾਹਰ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਵਾਕ ਦਾ "ਫਿੰਗਰਪ੍ਰਿੰਟ" (fingerprint) ਲਗਭਗ AI-ਨਿਰਮਿਤ ਵਾਕ ਵਰਗਾ ਹੀ ਦਿਖਾਈ ਦੇ ਸਕਦਾ ਹੈ। ਇਹ ਇੱਕ ਅਜਿਹਾ ਜੋਖਮ ਭਰਿਆ ਮਾਹੌਲ ਬਣਾਉਂਦਾ ਹੈ ਜਿੱਥੇ ਇੱਕ ਲੇਖਕ, ਜਿਸਨੇ ਆਪਣੀ ਕਲਾ ਨੂੰ ਨਿਖਾਰਨ ਵਿੱਚ ਦਹਾਕੇ ਬਿਤਾਏ ਹਨ, Sidekicker ਵਰਗੇ ਟੂਲ ਦੇ ਗਲਤ (false positive) ਨਤੀਜੇ ਕਾਰਨ ਆਪਣੇ ਕੰਟਰੈਕਟ ਗੁਆ ਸਕਦਾ ਹੈ ਜਾਂ ਆਪਣੀ ਸਾਖ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦਾ ਹੈ।

"ਬਲੈਕ ਬਾਕਸ" ਸਮੱਸਿਆ ਅਤੇ ਡਿਟੈਕਸ਼ਨ ਦਾ ਭਵਿੱਖ

ਸਫਲ ਟੂਲ ਵੀ ਪਾਰਦਰਸ਼ਤਾ ਦੇ ਸਬੰਧ ਵਿੱਚ ਆਲੋਚਨਾ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹਨ। Pangram ਦੇ CEO Max Spero ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਡਿਟੈਕਟਰ ਅਸਲ ਵਿੱਚ ਇੱਕ "ਬਲੈਕ ਬਾਕਸ" ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਇਹਦਾ ਵਿਸਤ੍ਰਿਤ ਵਿਆਖਿਆ ਨਹੀਂ ਦੇ ਸਕਦਾ ਕਿ ਕਿਸੇ ਖਾਸ ਟੈਕਸਟ ਨੂੰ ਕਿਉਂ ਫਲੈਗ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਉਹ ਦਲੀਲ ਦਿੰਦੇ ਹਨ ਕਿ ਮਨੁੱਖ LLM ਦੀ ਇਕਸਾਰਤਾ ਨਾਲੋਂ ਵਧੇਰੇ ਵਿਭਿੰਨਤਾ ਅਤੇ ਤਰਕ ਦੇ ਢਾਂਚੇ ਨਾਲ ਲਿਖਦੇ ਹਨ, ਪਰ ਵਿਆਖਿਆ ਦੀ ਘਾਟ ਜਵਾਬਦੇਹੀ ਲਈ ਇੱਕ ਰੁਕਾਵਟ ਬਣੀ ਹੋਈ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸ ਟੈਸਟ ਵਿੱਚ Pangram ਅਤੇ Grammarly ਦੀ ਸਫਲਤਾ ਮੁੱਖ ਤੌਰ 'ਤੇ ਇਹ ਸਾਬਤ ਕਰਦੀ ਹੈ ਕਿ ਉਹ false positives ਤੋਂ ਬਚਣ (ਮਨੁੱਖਾਂ ਨੂੰ ਫਲੈਗ ਨਾ ਕਰਨ) ਵਿੱਚ ਚੰਗੇ ਹਨ। ਇਹ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਉਹ AI ਨੂੰ ਫੜਨ (ਮਸ਼ੀਨੀ ਟੈਕਸਟ ਦੀ ਪਛਾਣ ਕਰਨ) ਵਿੱਚ ਵੀ ਉਨੇ ਹੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਣ।

ਜਿਵੇਂ ਕਿ ਉਦਯੋਗ "ਲਿਖਣ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਰਨ" ਅਤੇ "ਸੋਚਣ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਰਨ" ਵਿਚਕਾਰ ਅੰਤਰ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਿਹਾ ਹੈ, Authors Guild ਚੇਤਾਵਨੀ ਦਿੰਦਾ ਹੈ ਕਿ ਡਿਟੈਕਸ਼ਨ ਟੂਲ ਕਦੇ ਵੀ ਪੇਸ਼ੇਵਰ ਫੈਸਲਿਆਂ ਦਾ ਇਕਲੌਤਾ ਆਧਾਰ ਨਹੀਂ ਹੋਣੇ ਚਾਹੀਦੇ।

ਮੁੱਖ ਗੱਲਾਂ

ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਅਤਿ ਦੀ ਵੰਨਗੀ: ਜਦੋਂ ਕਿ Pangram ਅਤੇ Grammarly ਨੇ ਟੈਸਟ ਵਿੱਚ 0% false positive ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ, Sidekicker.ai ਨੇ 100% ਮਨੁੱਖੀ ਟੈਕਸਟ ਨੂੰ AI-ਨਿਰਮਿਤ ਵਜੋਂ ਫਲੈਗ ਕੀਤਾ।
ਪੇਸ਼ੇਵਰ ਸਜ਼ਾ: ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀ, ਸਟੀਕ ਮਨੁੱਖੀ ਲਿਖਤ AI ਆਉਟਪੁੱਟ ਨਾਲ ਅੰਕੜਾਤਮਕ ਸਮਾਨਤਾਵਾਂ ਰੱਖਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਹਰ ਲੇਖਕ ਡਿਟੈਕਸ਼ਨ ਦੀਆਂ ਗਲਤੀਆਂ ਦੇ ਸ਼ਿਕਾਰ ਹੋ ਸਕਦੇ ਹਨ।
ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਦੀ ਮੰਗ: Authors Guild ਪ੍ਰਕਾਸ਼ਕਾਂ ਨੂੰ ਸਲਾਹ ਦਿੰਦਾ ਹੈ ਕਿ ਉਹ ਡਿਟੈਕਟਰਾਂ ਦੀ ਵਰਤੋਂ ਸਿਰਫ਼ ਪੂਰਕ ਸਾਧਨਾਂ ਵਜੋਂ ਕਰਨ ਅਤੇ ਲੇਖਕਾਂ ਨੂੰ ਆਪਣੇ ਕੰਮ ਦਾ ਬਚਾਅ ਕਰਨ ਦਾ ਮੌਕਾ ਦੇਣ।

AI Detection Reliability Crisis: Some Tools Pass, Others Fail Completely

AI ਡਿਟੈਕਸ਼ਨ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਸੰਕਟ: ਕੁਝ ਟੂਲ ਸਫਲ ਹੁੰਦੇ ਹਨ, ਦੂਜੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ

ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪਾੜਾ: ਸੰਪੂਰਨਤਾ ਤੋਂ ਲੈ ਕੇ ਪੂਰੀ ਅਸਫਲਤਾ ਤੱਕ

ਪੇਸ਼ੇਵਰ ਲਿਖਤ ਦਾ ਵਿਰੋਧਾਭਾਸ

"ਬਲੈਕ ਬਾਕਸ" ਸਮੱਸਿਆ ਅਤੇ ਡਿਟੈਕਸ਼ਨ ਦਾ ਭਵਿੱਖ

ਮੁੱਖ ਗੱਲਾਂ

Continue reading

ਜਦੋਂ ਇੱਕ ਹੱਥ ਨਾਲ ਲਿਖੀ ਗਈ ਥੀਸਿਸ 99% AI ਬਣ ਜਾਂਦੀ ਹੈ

The AI Trust Gap: Why 60% of U.S. Consumers Reject AI Messaging

AI ਡਿਟੈਕਟਰ ਅੰਦਾਜ਼ੇ ਲਗਾ ਰਹੇ ਹਨ

Why LLMs Struggle to Mimic Human Diversity in Arguments