𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

Translated for your language. Read the original.

AI-assisted draft.

-2 d2min read

ਏਆਈ ਏਜੰਟਸ ਐਕਸਪਰਟ ਟਾਸਕਾਂ 'ਤੇ 0% ਸਕੋਰ ਕਰ ਗਏ

AI ਏਜੰਟਸ ਐਕਸਪਰਟ ਟਾਸਕਾਂ ਵਿੱਚ ਅਸਫਲ ਰਹੇ।

ALE ਬੈਂਚਮਾਰਕ ਨੇ ਪੇਸ਼ੇਵਰ ਕੰਮਾਂ 'ਤੇ ਉੱਤਮ ਮਾਡਲਾਂ ਦੀ ਪਰਖ ਕੀਤੀ। ਇਹਨਾਂ ਟਾਸਕਾਂ ਲਈ ਅਸਲ ਮੁਹਾਰਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ PDF ਦਾ ਸਾਰ ਲਿਖਣ ਵਰਗੇ ਸਧਾਰਨ ਟਾਸਕ ਨਹੀਂ ਹਨ।

ਨਤੀਜੇ ਸਪੱਸ਼ਟ ਸਨ। Fable 5 ਅਤੇ GPT-5.5 ਵਰਗੇ ਮਾਡਲਾਂ ਨੇ ਸਭ ਤੋਂ ਔਖੇ ਐਕਸਪਰਟ ਸਵਾਲਾਂ 'ਤੇ 0% ਸਕੋਰ ਕੀਤਾ। ਇੱਕ ਸਿੱਕਾ ਉਛਾਲਣਾ ਇਸ ਤੋਂ ਬਿਹਤਰ ਨਤੀਜਾ ਦੇ ਸਕਦਾ ਹੈ।

ਮੱਧ-ਦਰਜੇ ਦੇ ਟਾਸਕਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਘੱਟ ਰਿਹਾ। ਸਭ ਤੋਂ ਵਧੀਆ ਏਜੰਟਾਂ ਦੀ ਸਫਲਤਾ ਦੀ ਦਰ ਸਿਰਫ 15% ਤੋਂ 21% ਤੱਕ ਹੀ ਰਹੀ।

AI ਏਜੰਟ ਉਹੀ ਨਹੀਂ ਹਨ ਜੋ ਹਾਈਪ ਵਿੱਚ ਦੱਸਿਆ ਜਾ ਰਿਹਾ ਹੈ।

ਤੁਸੀਂ ਏਜੰਟਾਂ ਦੇ ਫਲਾਈਟ ਬੁੱਕ ਕਰਨ ਜਾਂ ਕੋਡ ਲਿਖਣ ਦੇ ਵੀਡੀਓ ਦੇਖਦੇ ਹੋ। ਇਹ ਡੈਮੋ ਬਹੁਤ ਵਧੀਆ ਲੱਗਦੇ ਹਨ। ਪਰ ਡੈਮੋ ਨੂੰ ਖਾਸ ਤੌਰ 'ਤੇ ਤਿਆਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਬੈਂਚਮਾਰਕ ਅਜਿਹੇ ਨਹੀਂ ਹੁੰਦੇ।

ਇੱਕ ਡੈਮੋ ਅਤੇ ਅਸਲ ਡਿਪਲਾਈਮੈਂਟ ਵਿਚਕਾਰ ਇੱਕ ਬਹੁਤ ਵੱਡਾ ਪਾੜਾ ਹੈ। ਕਈ ਟੀਮਾਂ ਅਜਿਹੀਆਂ ਕਾਬਲੀਅਤਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਉਤਪਾਦ ਦੇ ਫੈਸਲੇ ਲੈਂਦੀਆਂ ਹਨ ਜੋ ਅਸਲ ਵਿੱਚ ਮੌਜੂਦ ਹੀ ਨਹੀਂ ਹਨ। ਉਹ ਏਜੰਟਾਂ ਨੂੰ ਪੂਰੇ ਵਰਕਫਲੋ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਹਨ। ਇਹ ਇੱਕ ਗਲਤੀ ਹੈ।

ਇੱਥੇ ਡੇਟਾ ਕੀ ਦਿਖਾਉਂਦਾ ਹੈ:

ਏਜੰਟ ਮੱਧ-ਦਰਜੇ ਦੇ ਟਾਸਕਾਂ ਲਈ ਸਹਾਇਕਾਂ ਵਜੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਹਨ।
ਐਕਸਪਰਟ ਆਟੋਨੋਮੀ ਅਜੇ ਨਹੀਂ ਆਈ ਹੈ।
ਬੈਂਚਮਾਰਕ ਡੈਮੋ ਨਾਲੋਂ ਵਧੇਰੇ ਭਰੋਸੇਮੰਦ ਹਨ।

ਜੇਕਰ ਤੁਸੀਂ ਅੱਜ ਏਜੰਟਾਂ ਨਾਲ ਕੁਝ ਬਣਾ ਰਹੇ ਹੋ, ਤਾਂ ਉਹਨਾਂ ਦੀਆਂ ਮੌਜੂਦਾ ਸੀਮਾਵਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਬਣਾਓ। ਉਸ ਚੀਜ਼ ਲਈ ਨਾ ਬਣਾਓ ਜਿਸਦਾ ਕੋਈ ਬੁਲਾਰਾ ਜਲਦੀ ਹੋਣ ਦਾ ਵਾਅਦਾ ਕਰਦਾ ਹੈ।

ਉਦਯੋਗ ਇਹਨਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਰਿਹਾ ਹੈ। ਲੋਕ ਡੇਟਾ ਦੀ ਬਜਾਏ ਹਾਈਪ ਦੇ ਅਧਾਰ 'ਤੇ ਰੋਡਮੈਪ ਬਣਾਉਣਾ ਜਾਰੀ ਰੱਖ ਰਹੇ ਹਨ।

ਜੇਕਰ ਤੁਸੀਂ ਆਪਣੇ ਉਤਪਾਦ ਵਿੱਚ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਉਹਨਾਂ ਨਾਲ ਜੂਨੀਅਰ ਡਿਵੈਲਪਰਾਂ ਵਾਂਗ ਵਰਤੋਂ ਕਰੋ। ਉਹ ਸਪੱਸ਼ਟ ਨਿਯਮਾਂ ਵਾਲੇ ਛੋਟੇ ਟਾਸਕਾਂ 'ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਨਿਗਰਾਨੀ ਤੋਂ ਬਿਨਾਂ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

ਇਹਨਾਂ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:

ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਕੰਮਾਂ ਲਈ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ (human in the loop) ਰੱਖੋ।
ਏਜੰਟਾਂ ਨੂੰ ਬਹੁਤ ਹੀ ਸੀਮਤ ਟਾਸਕ ਦਿਓ।
ਆਪਣੇ ਅਸਲ ਵਰਕਲੋਡ ਦੇ ਅਨੁਸਾਰ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਾਪੋ।

ਇੱਕ ਵਿਹਾਰਕ ਪਹੁੰਚ ਹਾਈਪ ਥ੍ਰੈਡ ਨਾਲੋਂ ਘੱਟ ਦਿਲਚਸਪ ਹੋ ਸਕਦੀ ਹੈ। ਪਰ ਇਸਦਾ ਨਤੀਜਾ ਕੰਮ ਕਰਨ ਵਾਲੇ ਸਾਫਟਵੇਅਰ ਦੇ ਰੂਪ ਵਿੱਚ ਨਿਕਲਦਾ ਹੈ।

ਏਜੰਟ ਸੰਦ ਹਨ। ਉਹ ਇੱਕ ਸਵੈ-ਨਿਰਭਰ ਵਰਕਫੋਰਸ ਨਹੀਂ ਹਨ। ਅਸਲੀਅਤ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਬਣਾਓ।

ਤੁਸੀਂ ਟੀਮਾਂ ਨੂੰ ਕਿਹੜੀ ਏਜੰਟ ਸਮਰੱਥਾ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਾਈਪ ਦੇ ਨਾਲ ਲਾਂਚ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹੋਏ ਦੇਖਿਆ ਹੈ? ਆਪਣੀਆਂ ਕਹਾਣੀਆਂ ਹੇਠਾਂ ਸਾਂਝੀਆਂ ਕਰੋ।

Source: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Optional learning community: https://t.me/GyaanSetuAi

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

ਐਂਬੀਅੰਟ AI ਏਜੰਟਸ: 7 ਗਲਤੀਆਂ ਜਿਨ੍ਹਾਂ ਤੋਂ ਬਚਣਾ ਚਾਹੀਦਾ ਹੈ

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺