AI ਏਜੰਟ ਹੁਣ 16% ਫ੍ਰੀਲਾਂਸ ਕੰਮ ਪੇਸ਼ੇਵਰ ਗੁਣਵੱਤਾ ਨਾਲ ਪੂਰੇ ਕਰ ਰਹੇ ਹਨ

ਰਿਮੋਟ ਲੇਬਰ (ਦੂਰੋਂ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਕੰਮ) ਦਾ ਖੇਤਰ ਬਹੁਤ ਤੇਜ਼ੀ ਨਾਲ ਬਦਲ ਰਿਹਾ ਹੈ ਕਿਉਂਕਿ AI ਏਜੰਟ ਗੁੰਝਲਦਾਰ ਅਤੇ ਵਪਾਰਕ ਤੌਰ 'ਤੇ ਕੀਮਤੀ ਕੰਮਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਵਧਦੀ ਸਮਰੱਥਾ ਦਿਖਾ ਰਹੇ ਹਨ। ਨਵਾਂ ਡੇਟਾ ਦੱਸਦਾ ਹੈ ਕਿ ਪੇਸ਼ੇਵਰ ਪੱਧਰ ਦੇ ਫ੍ਰੀਲਾਂਸ ਕੰਮ ਲਈ ਸਭ ਤੋਂ ਉੱਚੀ ਆਟੋਮੇਸ਼ਨ ਦਰ ਅੱਠ ਮਹੀਨਿਆਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਚਾਰ ਗੁਣਾ ਹੋ ਗਈ ਹੈ।

ਰਿਮੋਟ ਲੇਬਰ ਇੰਡੈਕਸ (Remote Labor Index) ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧਣਾ

ਰਿਮੋਟ ਲੇਬਰ ਇੰਡੈਕਸ (RLI), ਜੋ ਕਿ Scale Labs ਦੇ ਸਹਿਯੋਗ ਨਾਲ Center for AI Safety (CAIS) ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਇੱਕ ਬੈਂਚਮਾਰਕ ਹੈ, ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰਦਾ ਹੈ ਕਿ AI ਏਜੰਟ ਕਿੰਨੀ ਵਾਰ ਭੁਗਤਾਨ ਕਰਨ ਵਾਲੇ ਗਾਹਕਾਂ ਲਈ ਸਵੀਕਾਰਯੋਗ ਗੁਣਵੱਤਾ ਦੇ ਪੱਧਰ 'ਤੇ ਭੁਗਤਾਨ ਵਾਲੇ ਫ੍ਰੀਲਾਂਸ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ। ਸਾਧਾਰਨ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਉਲਟ, RLI ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ 3D/CAD, ਆਰਕੀਟੈਕਚਰ, ਗ੍ਰਾਫਿਕ ਡਿਜ਼ਾਈਨ, ਵੀਡੀਓ ਐਨੀਮੇਸ਼ਨ, ਆਡੀਓ ਇੰਜੀਨੀਅਰਿੰਗ, ਅਤੇ ਵੈੱਬ ਐਪ ਡਿਵੈਲਪਮੈਂਟ ਸ਼ਾਮਲ ਹਨ।

ਇਸ ਅਧਿਐਨ ਵਿੱਚ 358 ਤਸਦੀਕਸ਼ੁਦਾ ਫ੍ਰੀਲਾਂਸਰਾਂ ਤੋਂ ਲਏ ਗਏ ਕੁੱਲ $144,000 ਦੀ ਕੀਮਤ ਵਾਲੇ 240 ਪ੍ਰੋਜੈਕਟਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਗਿਆ। ਨਤੀਜੇ ਸਮਰੱਥਾ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਛਾਲ ਦਿਖਾਉਂਦੇ ਹਨ: ਸਿਰਫ਼ ਅੱਠ ਮਹੀਨੇ ਪਹਿਲਾਂ, ਸਭ ਤੋਂ ਉੱਚੀ ਆਟੋਮੇਸ਼ਨ ਦਰ ਸਿਰਫ਼ 2.5 ਪ੍ਰਤੀਸ਼ਤ ਸੀ। ਅੱਜ, ਇਹ ਦਰ ਵਧ ਕੇ 16.1 ਪ੍ਰਤੀਸ਼ਤ ਹੋ ਗਈ ਹੈ।

Fable 5 ਆਟੋਮੇਸ਼ਨ ਦੇ ਨਵੇਂ ਖੇਤਰ ਦੀ ਅਗਵਾਈ ਕਰ ਰਿਹਾ ਹੈ

ਤਾਜ਼ਾ RLI ਨਤੀਜੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਉਛਾਲ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ Fable 5 ਮੌਜੂਦਾ ਲੀਡਰ ਵਜੋਂ ਉਭਰਿਆ ਹੈ। Fable 5 ਨੇ 16.1 ਪ੍ਰਤੀਸ਼ਤ ਆਟੋਮੇਸ਼ਨ ਦਰ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਜੋ ਕਿ ਇਸਦੇ ਸਭ ਤੋਂ ਨੇੜਲੇ ਮੁਕਾਬਲੇਬਾਜ਼, Opus 4.8 (ਜਿਸ ਨੇ 8.3 ਪ੍ਰਤੀਸ਼ਤ ਸਕੋਰ ਕੀਤਾ) ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਦੁੱਗਣਾ ਕਰ ਦਿੰਦੀ ਹੈ। ਹੋਰ ਪ੍ਰਮੁੱਖ ਕਾਰਗੁਜ਼ਾਰਾਂ ਵਿੱਚ GPT-5.5 ਸ਼ਾਮਲ ਸੀ, ਜੋ 6.3 ਪ੍ਰਤੀਸ਼ਤ ਤੱਕ ਪਹੁੰਚ ਗਿਆ।

ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਹੋ ਰਹੀ ਤਰੱਕੀ ਵਿਸ਼ੇਸ਼ ਏਜੈਂਟਿਕ ਵਰਕਫਲੋਜ਼ (agentic workflows) ਦੀਆਂ ਵਧਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ। ਇਹ ਨਤੀਜੇ ਹਾਸਲ ਕਰਨ ਲਈ, ਟੈਸਟਿੰਗ ਵਾਤਾਵਰਣ ਵਿੱਚ Blender, GIMP, ਅਤੇ Audacity ਵਰਗੀਆਂ 30 ਤੋਂ ਵੱਧ ਪੇਸ਼ੇਵਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨਾਲ ਲੈਸ ਵਰਚੁਅਲ Linux ਮਸ਼ੀਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਏਜੰਟਾਂ ਨੂੰ ਪ੍ਰਤੀ ਪ੍ਰੋਜੈਕਟ 24 ਘੰਟੇ ਤੱਕ ਦਾ ਕੰਪਿਊਟ ਸਮਾਂ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਉਹ ਇੱਕ "ਕ੍ਰਿਟਿਕ ਲੂਪ" (critic loop) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ—ਇੱਕ ਸੈਕੰਡਰੀ AI ਏਜੰਟ ਜੋ ਮਨੁੱਖੀ ਗਾਹਕ ਦੀ ਮੰਗ ਵਾਲੇ ਸੁਭਾਅ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਸਮੀਖਿਆ ਕਰਦਾ ਹੈ ਅਤੇ ਸੁਧਾਰਾਂ ਲਈ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।

AI ਜੱਜਾਂ ਅਤੇ ਪੇਸ਼ੇਵਰ ਸਾਫਟਵੇਅਰ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਇਹਨਾਂ ਲਾਭਾਂ ਦੇ ਬਾਵਜੂਦ, ਰਿਪੋਰਟ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੀ ਹੈ: AI ਏਜੰਟ ਅਜੇ ਵੀ ਪੇਸ਼ੇਵਰ ਸ਼ੁੱਧਤਾ ਦੇ "ਆਖਰੀ ਪੜਾਅ" (last mile) ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਹੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਆਰਕੀਟੈਕਚਰ ਦੇ ਕੰਮਾਂ ਵਿੱਚ, GPT-5.5 ਨੇ ਆਕਰਸ਼ਕ ਵਿਜ਼ੂਅਲ ਰੈਂਡਰ (visual renders) ਤਿਆਰ ਕੀਤੇ, ਪਰ ਅੰਦਰੂਨੀ 3D ਜਿਓਮੈਟਰੀ ਮੂਲ ਰੂਪ ਵਿੱਚ ਖ਼ਰਾਬ ਰਹੀ।

ਅਧਿਐਨ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਨਤੀਜਾ ਇਹ ਹੈ ਕਿ AI ਜੱਜ ਅਜੇ ਤੱਕ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਾਰਾਂ ਦੀ ਜਗ੍ਹਾ ਨਹੀਂ ਲੈ ਸਕਦੇ। ਟੈਸਟ ਕਰਨ 'ਤੇ, AI ਜੱਜ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਰਮ ਪੱਖਪਾਤੀ ਪਾਏ ਗਏ; GPT-5.5 ਲਈ, AI ਮੁਲਾਂਕਣਕਾਰ ਦਾ ਸਕੋਰ ਅਸਲ ਮਨੁੱਖੀ-ਪ੍ਰਮਾਣਿਤ ਗੁਣਵੱਤਾ ਨਾਲੋਂ ਲਗਭਗ ਤਿੰਨ ਗੁਣਾ ਜ਼ਿਆਦਾ ਸੀ। ਇਹ ਅੰਤਰ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਪੇਸ਼ੇਵਰ ਕੰਮ ਦਾ ਸਹੀ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਸਾਫਟਵੇਅਰ ਨਾਲ ਡੂੰਘਾਈ ਨਾਲ ਜੁੜਨ ਦੀ ਸਮਰੱਥਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ—ਇੱਕ ਅਜਿਹਾ ਖੇਤਰ ਜਿੱਥੇ ਮੌਜੂਦਾ AI ਏਜੰਟ ਅਜੇ ਵੀ ਵੱਡੀਆਂ ਰੁਕਾਵਟਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹਨ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਏਜੰਟ ਸਧਾਰਨ ਚੈਟ ਇੰਟਰਫੇਸ ਤੋਂ ਗੁੰਝਲਦਾਰ ਗ੍ਰਾਫਿਕਲ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਚਲਾਉਣ ਵੱਲ ਵਧ ਰਹੇ ਹਨ, ਉਦਯੋਗ ਡਿਜੀਟਲ ਅਰਥਚਾਰੇ ਵਿੱਚ "ਕੰਮ" ਦੀ ਪਰਿਭਾਸ਼ਾ ਅਤੇ ਇਸ ਨੂੰ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਬਦਲਾਅ ਦੇਖ ਰਿਹਾ ਹੈ।

ਮੁੱਖ ਨੁਕਤੇ

  • ਤੇਜ਼ੀ ਨਾਲ ਵਾਧਾ: ਪੇਸ਼ੇਵਰ ਫ੍ਰੀਲਾਂਸ ਕੰਮਾਂ ਲਈ ਸਭ ਤੋਂ ਉੱਚੀ ਆਟੋਮੇਸ਼ਨ ਦਰ ਅੱਠ ਮਹੀਨਿਆਂ ਤੋਂ ਵੀ ਘੱਟ ਸਮੇਂ ਵਿੱਚ 2.5% ਤੋਂ ਵਧ ਕੇ 16.1% ਹੋ ਗਈ ਹੈ।
  • ਮਾਡਲ ਦੀ ਅਗਵਾਈ: Fable 5 ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ 16.1% ਆਟੋਮੇਸ਼ਨ ਦਰ ਨਾਲ ਉਦਯੋਗ ਦੀ ਅਗਵਾਈ ਕਰ ਰਿਹਾ ਹੈ, ਜੋ ਕਿ Opus 4.8 (8.3%) ਅਤੇ GPT-5.5 (6.3%) ਨਾਲੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਰਿਹਾ ਹੈ।
  • ਮਨੁੱਖੀ ਲੋੜ: ਮਨੁੱਖੀ ਮੁਲਾਂਕਣਕਾਰ ਅਜੇ ਵੀ ਜ਼ਰੂਰੀ ਹਨ, ਕਿਉਂਕਿ AI ਜੱਜ ਬਹੁਤ ਜ਼ਿਆਦਾ ਉਦਾਰ ਹੋਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਰੱਖਦੇ ਹਨ ਅਤੇ ਵਿਸ਼ੇਸ਼ ਸਾਫਟਵੇਅਰ ਫਾਈਲਾਂ ਵਿੱਚ ਸੰਰਚਨਾਤਮਕ ਖ਼ਾਮੀਆਂ ਪਛਾਣਨ ਦੀ ਸਮਰੱਥਾ ਦੀ ਕਮੀ ਰੱਖਦੇ ਹਨ।