ਏਆਈ ਏਜੰਟਸ ਐਕਸਪਰਟ ਟਾਸਕਾਂ 'ਤੇ 0% ਸਕੋਰ ਕਰ ਗਏ
AI ਏਜੰਟਸ ਐਕਸਪਰਟ ਟਾਸਕਾਂ ਵਿੱਚ ਅਸਫਲ ਰਹੇ।
ALE ਬੈਂਚਮਾਰਕ ਨੇ ਪੇਸ਼ੇਵਰ ਕੰਮਾਂ 'ਤੇ ਉੱਤਮ ਮਾਡਲਾਂ ਦੀ ਪਰਖ ਕੀਤੀ। ਇਹਨਾਂ ਟਾਸਕਾਂ ਲਈ ਅਸਲ ਮੁਹਾਰਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ PDF ਦਾ ਸਾਰ ਲਿਖਣ ਵਰਗੇ ਸਧਾਰਨ ਟਾਸਕ ਨਹੀਂ ਹਨ।
ਨਤੀਜੇ ਸਪੱਸ਼ਟ ਸਨ। Fable 5 ਅਤੇ GPT-5.5 ਵਰਗੇ ਮਾਡਲਾਂ ਨੇ ਸਭ ਤੋਂ ਔਖੇ ਐਕਸਪਰਟ ਸਵਾਲਾਂ 'ਤੇ 0% ਸਕੋਰ ਕੀਤਾ। ਇੱਕ ਸਿੱਕਾ ਉਛਾਲਣਾ ਇਸ ਤੋਂ ਬਿਹਤਰ ਨਤੀਜਾ ਦੇ ਸਕਦਾ ਹੈ।
ਮੱਧ-ਦਰਜੇ ਦੇ ਟਾਸਕਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਘੱਟ ਰਿਹਾ। ਸਭ ਤੋਂ ਵਧੀਆ ਏਜੰਟਾਂ ਦੀ ਸਫਲਤਾ ਦੀ ਦਰ ਸਿਰਫ 15% ਤੋਂ 21% ਤੱਕ ਹੀ ਰਹੀ।
AI ਏਜੰਟ ਉਹੀ ਨਹੀਂ ਹਨ ਜੋ ਹਾਈਪ ਵਿੱਚ ਦੱਸਿਆ ਜਾ ਰਿਹਾ ਹੈ।
ਤੁਸੀਂ ਏਜੰਟਾਂ ਦੇ ਫਲਾਈਟ ਬੁੱਕ ਕਰਨ ਜਾਂ ਕੋਡ ਲਿਖਣ ਦੇ ਵੀਡੀਓ ਦੇਖਦੇ ਹੋ। ਇਹ ਡੈਮੋ ਬਹੁਤ ਵਧੀਆ ਲੱਗਦੇ ਹਨ। ਪਰ ਡੈਮੋ ਨੂੰ ਖਾਸ ਤੌਰ 'ਤੇ ਤਿਆਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਬੈਂਚਮਾਰਕ ਅਜਿਹੇ ਨਹੀਂ ਹੁੰਦੇ।
ਇੱਕ ਡੈਮੋ ਅਤੇ ਅਸਲ ਡਿਪਲਾਈਮੈਂਟ ਵਿਚਕਾਰ ਇੱਕ ਬਹੁਤ ਵੱਡਾ ਪਾੜਾ ਹੈ। ਕਈ ਟੀਮਾਂ ਅਜਿਹੀਆਂ ਕਾਬਲੀਅਤਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਉਤਪਾਦ ਦੇ ਫੈਸਲੇ ਲੈਂਦੀਆਂ ਹਨ ਜੋ ਅਸਲ ਵਿੱਚ ਮੌਜੂਦ ਹੀ ਨਹੀਂ ਹਨ। ਉਹ ਏਜੰਟਾਂ ਨੂੰ ਪੂਰੇ ਵਰਕਫਲੋ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਹਨ। ਇਹ ਇੱਕ ਗਲਤੀ ਹੈ।
ਇੱਥੇ ਡੇਟਾ ਕੀ ਦਿਖਾਉਂਦਾ ਹੈ:
- ਏਜੰਟ ਮੱਧ-ਦਰਜੇ ਦੇ ਟਾਸਕਾਂ ਲਈ ਸਹਾਇਕਾਂ ਵਜੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਹਨ।
- ਐਕਸਪਰਟ ਆਟੋਨੋਮੀ ਅਜੇ ਨਹੀਂ ਆਈ ਹੈ।
- ਬੈਂਚਮਾਰਕ ਡੈਮੋ ਨਾਲੋਂ ਵਧੇਰੇ ਭਰੋਸੇਮੰਦ ਹਨ।
ਜੇਕਰ ਤੁਸੀਂ ਅੱਜ ਏਜੰਟਾਂ ਨਾਲ ਕੁਝ ਬਣਾ ਰਹੇ ਹੋ, ਤਾਂ ਉਹਨਾਂ ਦੀਆਂ ਮੌਜੂਦਾ ਸੀਮਾਵਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਬਣਾਓ। ਉਸ ਚੀਜ਼ ਲਈ ਨਾ ਬਣਾਓ ਜਿਸਦਾ ਕੋਈ ਬੁਲਾਰਾ ਜਲਦੀ ਹੋਣ ਦਾ ਵਾਅਦਾ ਕਰਦਾ ਹੈ।
ਉਦਯੋਗ ਇਹਨਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਰਿਹਾ ਹੈ। ਲੋਕ ਡੇਟਾ ਦੀ ਬਜਾਏ ਹਾਈਪ ਦੇ ਅਧਾਰ 'ਤੇ ਰੋਡਮੈਪ ਬਣਾਉਣਾ ਜਾਰੀ ਰੱਖ ਰਹੇ ਹਨ।
ਜੇਕਰ ਤੁਸੀਂ ਆਪਣੇ ਉਤਪਾਦ ਵਿੱਚ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਉਹਨਾਂ ਨਾਲ ਜੂਨੀਅਰ ਡਿਵੈਲਪਰਾਂ ਵਾਂਗ ਵਰਤੋਂ ਕਰੋ। ਉਹ ਸਪੱਸ਼ਟ ਨਿਯਮਾਂ ਵਾਲੇ ਛੋਟੇ ਟਾਸਕਾਂ 'ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਨਿਗਰਾਨੀ ਤੋਂ ਬਿਨਾਂ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।
ਇਹਨਾਂ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:
- ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਕੰਮਾਂ ਲਈ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ (human in the loop) ਰੱਖੋ।
- ਏਜੰਟਾਂ ਨੂੰ ਬਹੁਤ ਹੀ ਸੀਮਤ ਟਾਸਕ ਦਿਓ।
- ਆਪਣੇ ਅਸਲ ਵਰਕਲੋਡ ਦੇ ਅਨੁਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਾਪੋ।
ਇੱਕ ਵਿਹਾਰਕ ਪਹੁੰਚ ਹਾਈਪ ਥ੍ਰੈਡ ਨਾਲੋਂ ਘੱਟ ਦਿਲਚਸਪ ਹੋ ਸਕਦੀ ਹੈ। ਪਰ ਇਸਦਾ ਨਤੀਜਾ ਕੰਮ ਕਰਨ ਵਾਲੇ ਸਾਫਟਵੇਅਰ ਦੇ ਰੂਪ ਵਿੱਚ ਨਿਕਲਦਾ ਹੈ।
ਏਜੰਟ ਸੰਦ ਹਨ। ਉਹ ਇੱਕ ਸਵੈ-ਨਿਰਭਰ ਵਰਕਫੋਰਸ ਨਹੀਂ ਹਨ। ਅਸਲੀਅਤ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਬਣਾਓ।
ਤੁਸੀਂ ਟੀਮਾਂ ਨੂੰ ਕਿਹੜੀ ਏਜੰਟ ਸਮਰੱਥਾ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਾਈਪ ਦੇ ਨਾਲ ਲਾਂਚ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹੋਏ ਦੇਖਿਆ ਹੈ? ਆਪਣੀਆਂ ਕਹਾਣੀਆਂ ਹੇਠਾਂ ਸਾਂਝੀਆਂ ਕਰੋ।
Source: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1
Optional learning community: https://t.me/GyaanSetuAi