AI Agents Now Complete 16% of Freelance Jobs at Professional Quality

Translated for your language. Read the original.

AI-assisted draft.

AI Agents Now Complete 16% of Freelance Jobs at Professional Quality

In this article

AI ਏਜੰਟ ਹੁਣ 16% ਫ੍ਰੀਲਾਂਸ ਕੰਮ ਪੇਸ਼ੇਵਰ ਗੁਣਵੱਤਾ ਨਾਲ ਪੂਰੇ ਕਰ ਰਹੇ ਹਨ

ਰਿਮੋਟ ਲੇਬਰ (ਦੂਰੋਂ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਕੰਮ) ਦਾ ਖੇਤਰ ਬਹੁਤ ਤੇਜ਼ੀ ਨਾਲ ਬਦਲ ਰਿਹਾ ਹੈ ਕਿਉਂਕਿ AI ਏਜੰਟ ਗੁੰਝਲਦਾਰ ਅਤੇ ਵਪਾਰਕ ਤੌਰ 'ਤੇ ਕੀਮਤੀ ਕੰਮਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਵਧਦੀ ਸਮਰੱਥਾ ਦਿਖਾ ਰਹੇ ਹਨ। ਨਵਾਂ ਡੇਟਾ ਦੱਸਦਾ ਹੈ ਕਿ ਪੇਸ਼ੇਵਰ ਪੱਧਰ ਦੇ ਫ੍ਰੀਲਾਂਸ ਕੰਮ ਲਈ ਸਭ ਤੋਂ ਉੱਚੀ ਆਟੋਮੇਸ਼ਨ ਦਰ ਅੱਠ ਮਹੀਨਿਆਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਚਾਰ ਗੁਣਾ ਹੋ ਗਈ ਹੈ।

ਰਿਮੋਟ ਲੇਬਰ ਇੰਡੈਕਸ (Remote Labor Index) ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧਣਾ

ਰਿਮੋਟ ਲੇਬਰ ਇੰਡੈਕਸ (RLI), ਜੋ ਕਿ Scale Labs ਦੇ ਸਹਿਯੋਗ ਨਾਲ Center for AI Safety (CAIS) ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਇੱਕ ਬੈਂਚਮਾਰਕ ਹੈ, ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰਦਾ ਹੈ ਕਿ AI ਏਜੰਟ ਕਿੰਨੀ ਵਾਰ ਭੁਗਤਾਨ ਕਰਨ ਵਾਲੇ ਗਾਹਕਾਂ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦੇ ਪੱਧਰ 'ਤੇ ਭੁਗਤਾਨ ਵਾਲੇ ਫ੍ਰੀਲਾਂਸ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ। ਸਾਧਾਰਨ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਉਲਟ, RLI ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ 3D/CAD, ਆਰਕੀਟੈਕਚਰ, ਗ੍ਰਾਫਿਕ ਡਿਜ਼ਾਈਨ, ਵੀਡੀਓ ਐਨੀਮੇਸ਼ਨ, ਆਡੀਓ ਇੰਜੀਨੀਅਰਿੰਗ, ਅਤੇ ਵੈੱਬ ਐਪ ਡਿਵੈਲਪਮੈਂਟ ਸ਼ਾਮਲ ਹਨ।

ਇਸ ਅਧਿਐਨ ਵਿੱਚ 358 ਤਸਦੀਕਸ਼ੁਦਾ ਫ੍ਰੀਲਾਂਸਰਾਂ ਤੋਂ ਲਏ ਗਏ ਕੁੱਲ $144,000 ਦੀ ਕੀਮਤ ਵਾਲੇ 240 ਪ੍ਰੋਜੈਕਟਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਗਿਆ। ਨਤੀਜੇ ਸਮਰੱਥਾ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਛਾਲ ਦਿਖਾਉਂਦੇ ਹਨ: ਸਿਰਫ਼ ਅੱਠ ਮਹੀਨੇ ਪਹਿਲਾਂ, ਸਭ ਤੋਂ ਉੱਚੀ ਆਟੋਮੇਸ਼ਨ ਦਰ ਸਿਰਫ਼ 2.5 ਪ੍ਰਤੀਸ਼ਤ ਸੀ। ਅੱਜ, ਇਹ ਦਰ ਵਧ ਕੇ 16.1 ਪ੍ਰਤੀਸ਼ਤ ਹੋ ਗਈ ਹੈ।

Fable 5 ਆਟੋਮੇਸ਼ਨ ਦੇ ਨਵੇਂ ਖੇਤਰ ਦੀ ਅਗਵਾਈ ਕਰ ਰਿਹਾ ਹੈ

ਤਾਜ਼ਾ RLI ਨਤੀਜੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਉਛਾਲ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ Fable 5 ਮੌਜੂਦਾ ਲੀਡਰ ਵਜੋਂ ਉਭਰਿਆ ਹੈ। Fable 5 ਨੇ 16.1 ਪ੍ਰਤੀਸ਼ਤ ਆਟੋਮੇਸ਼ਨ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਜੋ ਕਿ ਇਸਦੇ ਸਭ ਤੋਂ ਨੇੜਲੇ ਮੁਕਾਬਲੇਬਾਜ਼, Opus 4.8 (ਜਿਸ ਨੇ 8.3 ਪ੍ਰਤੀਸ਼ਤ ਸਕੋਰ ਕੀਤਾ) ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਦੁੱਗਣਾ ਕਰ ਦਿੰਦੀ ਹੈ। ਹੋਰ ਪ੍ਰਮੁੱਖ ਕਾਰਗੁਜ਼ਾਰਾਂ ਵਿੱਚ GPT-5.5 ਸ਼ਾਮਲ ਸੀ, ਜੋ 6.3 ਪ੍ਰਤੀਸ਼ਤ ਤੱਕ ਪਹੁੰਚ ਗਿਆ।

ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਹੋ ਰਹੀ ਤਰੱਕੀ ਵਿਸ਼ੇਸ਼ ਏਜੈਂਟਿਕ ਵਰਕਫਲੋਜ਼ (agentic workflows) ਦੀਆਂ ਵਧਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ। ਇਹ ਨਤੀਜੇ ਹਾਸਲ ਕਰਨ ਲਈ, ਟੈਸਟਿੰਗ ਵਾਤਾਵਰਣ ਵਿੱਚ Blender, GIMP, ਅਤੇ Audacity ਵਰਗੀਆਂ 30 ਤੋਂ ਵੱਧ ਪੇਸ਼ੇਵਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨਾਲ ਲੈਸ ਵਰਚੁਅਲ Linux ਮਸ਼ੀਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਏਜੰਟਾਂ ਨੂੰ ਪ੍ਰਤੀ ਪ੍ਰੋਜੈਕਟ 24 ਘੰਟੇ ਤੱਕ ਦਾ ਕੰਪਿਊਟ ਸਮਾਂ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਉਹ ਇੱਕ "ਕ੍ਰਿਟਿਕ ਲੂਪ" (critic loop) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ—ਇੱਕ ਸੈਕੰਡਰੀ AI ਏਜੰਟ ਜੋ ਮਨੁੱਖੀ ਗਾਹਕ ਦੀ ਮੰਗ ਵਾਲੇ ਸੁਭਾਅ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ ਅਤੇ ਸੁਧਾਰਾਂ ਲਈ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।

AI ਜੱਜਾਂ ਅਤੇ ਪੇਸ਼ੇਵਰ ਸਾਫਟਵੇਅਰ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਇਹਨਾਂ ਲਾਭਾਂ ਦੇ ਬਾਵਜੂਦ, ਰਿਪੋਰਟ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੀ ਹੈ: AI ਏਜੰਟ ਅਜੇ ਵੀ ਪੇਸ਼ੇਵਰ ਸ਼ੁੱਧਤਾ ਦੇ "ਆਖਰੀ ਪੜਾਅ" (last mile) ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਹੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਆਰਕੀਟੈਕਚਰ ਦੇ ਕੰਮਾਂ ਵਿੱਚ, GPT-5.5 ਨੇ ਆਕਰਸ਼ਕ ਵਿਜ਼ੂਅਲ ਰੈਂਡਰ (visual renders) ਤਿਆਰ ਕੀਤੇ, ਪਰ ਅੰਦਰੂਨੀ 3D ਜਿਓਮੈਟਰੀ ਮੂਲ ਰੂਪ ਵਿੱਚ ਖ਼ਰਾਬ ਰਹੀ।

ਅਧਿਐਨ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਨਤੀਜਾ ਇਹ ਹੈ ਕਿ AI ਜੱਜ ਅਜੇ ਤੱਕ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਾਰਾਂ ਦੀ ਜਗ੍ਹਾ ਨਹੀਂ ਲੈ ਸਕਦੇ। ਟੈਸਟ ਕਰਨ 'ਤੇ, AI ਜੱਜ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਰਮ ਪੱਖਪਾਤੀ ਪਾਏ ਗਏ; GPT-5.5 ਲਈ, AI ਮੁਲਾਂਕਣਕਾਰ ਦਾ ਸਕੋਰ ਅਸਲ ਮਨੁੱਖੀ-ਪ੍ਰਮਾਣਿਤ ਗੁਣਵੱਤਾ ਨਾਲੋਂ ਲਗਭਗ ਤਿੰਨ ਗੁਣਾ ਜ਼ਿਆਦਾ ਸੀ। ਇਹ ਅੰਤਰ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਪੇਸ਼ੇਵਰ ਕੰਮ ਦਾ ਸਹੀ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਸਾਫਟਵੇਅਰ ਨਾਲ ਡੂੰਘਾਈ ਨਾਲ ਜੁੜਨ ਦੀ ਸਮਰੱਥਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ—ਇੱਕ ਅਜਿਹਾ ਖੇਤਰ ਜਿੱਥੇ ਮੌਜੂਦਾ AI ਏਜੰਟ ਅਜੇ ਵੀ ਵੱਡੀਆਂ ਰੁਕਾਵਟਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹਨ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਏਜੰਟ ਸਧਾਰਨ ਚੈਟ ਇੰਟਰਫੇਸ ਤੋਂ ਗੁੰਝਲਦਾਰ ਗ੍ਰਾਫਿਕਲ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਚਲਾਉਣ ਵੱਲ ਵਧ ਰਹੇ ਹਨ, ਉਦਯੋਗ ਡਿਜੀਟਲ ਅਰਥਚਾਰੇ ਵਿੱਚ "ਕੰਮ" ਦੀ ਪਰਿਭਾਸ਼ਾ ਅਤੇ ਇਸ ਨੂੰ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਬਦਲਾਅ ਦੇਖ ਰਿਹਾ ਹੈ।

ਮੁੱਖ ਨੁਕਤੇ

ਤੇਜ਼ੀ ਨਾਲ ਵਾਧਾ: ਪੇਸ਼ੇਵਰ ਫ੍ਰੀਲਾਂਸ ਕੰਮਾਂ ਲਈ ਸਭ ਤੋਂ ਉੱਚੀ ਆਟੋਮੇਸ਼ਨ ਦਰ ਅੱਠ ਮਹੀਨਿਆਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ 2.5% ਤੋਂ ਵਧ ਕੇ 16.1% ਹੋ ਗਈ ਹੈ।
ਮਾਡਲ ਦੀ ਅਗਵਾਈ: Fable 5 ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ 16.1% ਆਟੋਮੇਸ਼ਨ ਦਰ ਨਾਲ ਉਦਯੋਗ ਦੀ ਅਗਵਾਈ ਕਰ ਰਿਹਾ ਹੈ, ਜੋ ਕਿ Opus 4.8 (8.3%) ਅਤੇ GPT-5.5 (6.3%) ਨਾਲੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਰਿਹਾ ਹੈ।
ਮਨੁੱਖੀ ਲੋੜ: ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਾਰ ਅਜੇ ਵੀ ਜ਼ਰੂਰੀ ਹਨ, ਕਿਉਂਕਿ AI ਜੱਜ ਬਹੁਤ ਜ਼ਿਆਦਾ ਉਦਾਰ ਹੋਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਰੱਖਦੇ ਹਨ ਅਤੇ ਵਿਸ਼ੇਸ਼ ਸਾਫਟਵੇਅਰ ਫਾਈਲਾਂ ਵਿੱਚ ਸੰਰਚਨਾਤਮਕ ਖ਼ਾਮੀਆਂ ਪਛਾਣਨ ਦੀ ਸਮਰੱਥਾ ਦੀ ਕਮੀ ਰੱਖਦੇ ਹਨ।

AI Agents Now Complete 16% of Freelance Jobs at Professional Quality

AI ਏਜੰਟ ਹੁਣ 16% ਫ੍ਰੀਲਾਂਸ ਕੰਮ ਪੇਸ਼ੇਵਰ ਗੁਣਵੱਤਾ ਨਾਲ ਪੂਰੇ ਕਰ ਰਹੇ ਹਨ

ਰਿਮੋਟ ਲੇਬਰ ਇੰਡੈਕਸ (Remote Labor Index) ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧਣਾ

Fable 5 ਆਟੋਮੇਸ਼ਨ ਦੇ ਨਵੇਂ ਖੇਤਰ ਦੀ ਅਗਵਾਈ ਕਰ ਰਿਹਾ ਹੈ

AI ਜੱਜਾਂ ਅਤੇ ਪੇਸ਼ੇਵਰ ਸਾਫਟਵੇਅਰ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਮੁੱਖ ਨੁਕਤੇ

Continue reading

ਨਵਾਂ AA Briefcase ਬੈਂਚਮਾਰਕ ਅਸਲ ਗਿਆਨ-ਅਧਾਰਤ ਕੰਮ ਵਿੱਚ AI ਦੇ ਸੰਘਰਸ਼ ਦਾ ਖੁਲਾਸਾ ਕਰਦਾ ਹੈ

Agentic AI ਦਾ ਉਭਾਰ: ਤਕਨੀਕੀ ਟੀਮਾਂ ਆਟੋਮੇਸ਼ਨ ਦੀ ਅਗਵਾਈ ਕਿਉਂ ਕਰ ਰਹੀਆਂ ਹਨ

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities