AI ਏਜੰਟ ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

Translated for your language. Read the original.

AI-assisted draft.

AI ਏਜੰਟ ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

AI Agent ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

ਜ਼ਿਆਦਾਤਰ ਲੋਕ ਸੋਚਦੇ ਹਨ ਕਿ AI agent ਦਾ ਮੁਲਾਂਕਣ ਲਾਂਚ ਹੋਣ ਵੇਲੇ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ। ਉਹ ਇੱਕ benchmark 'ਤੇ ਉੱਚ ਸਕੋਰ ਦੇਖਦੇ ਹਨ ਅਤੇ ਮੰਨ ਲੈਂਦੇ ਹਨ ਕਿ agent ਤਿਆਰ ਹੈ। ਇਹ ਇੱਕ ਗਲਤੀ ਹੈ।

ਇੱਕ ਉੱਚ ਸਕੋਰ ਦਾ ਅਕਸਰ ਮਤਲਬ ਹੁੰਦਾ ਹੈ ਕਿ agent ਨੇ ਕੁਝ ਖਾਸ ਮਾਮਲਿਆਂ ਵਿੱਚ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਹੈ ਕਿ agent ਅਸਲ ਦੁਨੀਆ ਲਈ ਤਿਆਰ ਹੈ।

ਮੌਜੂਦਾ benchmarks ਵਿੱਚ ਵੱਡੀਆਂ ਕਮੀਆਂ ਹਨ। 15 ਪ੍ਰਮੁੱਖ benchmarks ਦੀ ਸਮੀਖਿਆ ਤੋਂ ਪਤਾ ਲੱਗਾ:

ਜ਼ੀਰੋ benchmarks ਨੇ ਆਪਣੇ ਸਕੋਰਾਂ ਵਿੱਚ ਸੁਰੱਖਿਆ (safety or security) ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ।
ਜ਼ੀਰੋ benchmarks ਨੇ ਲਾਗਤ ਕੁਸ਼ਲਤਾ (cost efficiency) ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ।
15 ਵਿੱਚੋਂ 13 ਸਿਰਫ਼ binary ਸਫਲਤਾ ਜਾਂ ਅਸਫਲਤਾ 'ਤੇ ਨਿਰਭਰ ਸਨ।
ਕੋਈ ਵੀ 50% deployment readiness ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਿਆ।

ਸਿਰਫ਼ ਅੰਤਿਮ ਆਉਟਪੁੱਟ (final output) ਦੀ ਜਾਂਚ ਕਰਨਾ ਖ਼ਤਰਨਾਕ ਹੈ। ਜੇਕਰ ਕੋਈ agent ਸਹੀ ਜਵਾਬ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਇਹ ਸਫਲਤਾ ਵਾਂਗ ਲੱਗਦਾ ਹੈ। ਪਰ ਜਿਸ ਰਸਤੇ (path) 'ਤੇ ਉਹ ਚੱਲਿਆ ਹੈ, ਉਹ ਖ਼ਰਾਬ ਹੋ ਸਕਦਾ ਹੈ।

ਇੱਕ agent ਇਹ ਕਰ ਸਕਦਾ ਹੈ:

ਸਹੀ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਗਲਤ tools ਦੀ ਵਰਤੋਂ ਕਰਨਾ।
ਵੈਰੀਫਿਕੇਸ਼ਨ ਸਟੈਪਸ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਛੱਡ ਦੇਣਾ।
ਤੱਥਾਂ ਬਾਰੇ ਗਲਤ ਜਾਣਕਾਰੀ (hallucinate) ਦੇਣਾ ਪਰ ਸਹੀ ਸਿੱਟੇ 'ਤੇ ਪਹੁੰਚਣਾ।
ਲਗਾਤਾਰ ਕੋਸ਼ਿਸ਼ਾਂ (retries) ਨਾਲ ਤੁਹਾਡੇ ਬਜਟ ਨੂੰ ਖਤਮ ਕਰ ਦੇਣਾ।

ਜੇਕਰ ਕੋਈ customer support agent ਗਲਤ ਖਾਤੇ ਲਈ ਰਿਫੰਡ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ, ਤਾਂ ਆਉਟਪੁੱਟ ਠੀਕ ਲੱਗਦਾ ਹੈ। ਪਰ agent ਅਸਫਲ ਰਿਹਾ।

ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਜਵਾਬ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਉਸਦੇ ਰਸਤੇ (trajectory) ਨੂੰ ਵੀ ਸਕੋਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਅਸਲ ਮੁਲਾਂਕਣ ਵਿੱਚ ਇਹਨਾਂ ਪਹਿਲੂਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ:

Tool ਅਤੇ parameter ਦੀ ਸਹੀਤਾ।
Grounding ਅਤੇ ਸ਼ੁੱਧਤਾ (accuracy)।
ਲਾਗਤ (cost) ਅਤੇ ਲੇਟੈਂਸੀ (latency)।
ਨੀਤੀ (policy) ਅਤੇ ਸੁਰੱਖਿਆ (safety)।
ਗਲਤੀਆਂ ਤੋਂ ਸੁਧਾਰ (recovery from errors)।

ਮੁਲਾਂਕਣ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਲਾਂਚ ਰਿਪੋਰਟ ਵਜੋਂ ਦੇਖਣਾ ਬੰਦ ਕਰੋ। ਇਸਨੂੰ ਇੱਕ ਨਿਰੰਤਰ ਲੂਪ (continuous loop) ਵਜੋਂ ਲਓ।

ਕੰਮ ਕਰਨ ਦਾ ਬਿਹਤਰ ਤਰੀਕਾ:

ਸਮਰੱਥਾ ਲਈ ਜਨਤਕ benchmarks ਬਣਾਓ।
ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ offline ਟੈਸਟ ਚਲਾਓ।
ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ production traces ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ।
Tool calls, arguments, ਅਤੇ ਵਿਚਕਾਰਲੇ ਫੈਸਲਿਆਂ ਨੂੰ ਕੈਪਚਰ ਕਰੋ।
ਆਪਣੇ offline datasets ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਅਸਫਲ production traces ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਮੁਲਾਂਕਣ ਇੱਕ observability ਦੀ ਸਮੱਸਿਆ ਹੈ। ਇੱਕ agent ਉਦੋਂ ਹੀ ਸਫਲ ਹੁੰਦਾ ਹੈ ਜੇਕਰ ਇਸਦਾ ਵਿਵਹਾਰ ਤੁਹਾਡੇ ਵਪਾਰਕ ਟੀਚਿਆਂ, ਤੁਹਾਡੇ tools, ਅਤੇ ਤੁਹਾਡੇ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ (user intent) ਦੇ ਅਨੁਕੂਲ ਰਹੇ। ਇਹ ਚੀਜ਼ਾਂ ਹਰ ਰੋਜ਼ ਬਦਲਦੀਆਂ ਹਨ।

ਸਿਰਫ਼ traces ਨੂੰ ਸਟੋਰ ਨਾ ਕਰੋ। ਉਹਨਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ। ਮੁਲਾਂਕਣ ਤੋਂ ਬਿਨਾਂ trace ਸਟੋਰ ਕਰਨਾ ਸਿਰਫ਼ ਇੱਕ ਸਰਚ ਸਮੱਸਿਆ ਹੈ। production ਡੇਟਾ ਤੋਂ ਬਿਨਾਂ offline ਮੁਲਾਂਕਣ ਸਿਰਫ਼ ਇੱਕ ਦਿਖਾਵਾ ਹੈ।

ਮੁਲਾਂਕਣ ਦਾ ਆਖਰੀ ਕਦਮ ਸਿਰਫ਼ ਇੱਕ ਸਕੋਰ ਨਹੀਂ ਹੋਣਾ ਚਾਹੀਦਾ। ਆਖਰੀ ਕਦਮ ਅਗਲਾ trace ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।

ਸਰੋਤ: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

AI ਏਜੰਟ ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

AI Agent ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

Continue reading

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

ਐਂਬੀਅੰਟ AI ਏਜੰਟਸ: 7 ਗਲਤੀਆਂ ਜਿਨ੍ਹਾਂ ਤੋਂ ਬਚਣਾ ਚਾਹੀਦਾ ਹੈ

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟱 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗼 𝗔𝘃𝗼𝗶𝗱 𝗪𝗵𝗲𝗻 𝗗𝗲𝗽𝗹𝗼𝘆𝗶𝗻𝗴 𝗔𝗺𝗯𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀