𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

ਤੁਹਾਡਾ AI ਏਜੰਟ ਤੁਹਾਡੇ ਸਟੇਜਿੰਗ (staging) ਵਾਤਾਵਰਣ ਵਿੱਚ ਬਿਲਕੁਲ ਸਹੀ ਕੰਮ ਕਰ ਰਿਹਾ ਸੀ। ਡੈਮੋ ਬਹੁਤ ਵਧੀਆ ਲੱਗੇ। ਪ੍ਰੋਡਕਟ ਮੈਨੇਜਰ ਖੁਸ਼ ਸੀ।

ਫਿਰ ਤੁਸੀਂ ਇਸਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ (production) ਵਿੱਚ ਭੇਜ ਦਿੱਤਾ।

ਤਿੰਨ ਹਫ਼ਤਿਆਂ ਬਾਅਦ, ਤੁਹਾਨੂੰ ਬੱਗ ਰਿਪੋਰਟਾਂ (bug reports) ਮਿਲਦੀਆਂ ਹਨ। ਏਜੰਟ ਅਜਿਹੇ ਜਵਾਬ ਦਿੰਦਾ ਹੈ ਜੋ ਸੁਣਨ ਵਿੱਚ ਸਹੀ ਲੱਗਦੇ ਹਨ ਪਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਗਲਤ ਹੁੰਦੇ ਹਨ।

ਮੈਂ 2025 ਵਿੱਚ ਅਜਿਹਾ ਹੁੰਦੇ ਦੇਖਿਆ। ਇੱਕ ਟੀਮ ਨੇ ਅਜਿਹਾ ਏਜੰਟ ਲਾਂਚ ਕੀਤਾ ਜਿਸਨੇ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਗਾਹਕਾਂ ਲਈ ਉਤਪਾਦ ਦੀਆਂ ਕੀਮਤਾਂ ਬਾਰੇ ਗਲਤ ਜਾਣਕਾਰੀ (hallucinated) ਦਿੱਤੀ। ਏਜੰਟ ਦਾ ਕਾਨਫੀਡੈਂਸ ਸਕੋਰ (confidence score) 0.94 ਸੀ, ਜੋ ਕਿ ਬਹੁਤ ਉੱਚਾ ਸੀ। ਪਰ ਅਸਲ ਅਕੂਰੇਸੀ (accuracy) ਸਿਰਫ਼ 60% ਸੀ।

ਟੀਮ ਇਸ ਲਈ ਫੇਲ ਹੋ ਗਈ ਕਿਉਂਕਿ ਉਨ੍ਹਾਂ ਕੋਲ ਕੋਈ ਇਵੈਲੂਏਸ਼ਨ ਪਾਈਪਲਾਈਨ (evaluation pipeline) ਨਹੀਂ ਸੀ। ਉਹ ਸਿਰਫ਼ ਉਮੀਦ 'ਤੇ ਨਿਰਭਰ ਸਨ।

ਉਮੀਦ ਕੋਈ ਡਿਪਲਾਈਮੈਂਟ ਰਣਨੀਤੀ (deployment strategy) ਨਹੀਂ ਹੈ।

ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਆਪਣਾ ਸਾਰਾ ਸਮਾਂ ਏਜੰਟ ਆਰਕੀਟੈਕਚਰ (agent architecture) 'ਤੇ ਬਿਤਾਉਂਦੀਆਂ ਹਨ। ਉਹ ਟੂਲ ਡੈਫੀਨੇਸ਼ਨ, ਪ੍ਰੋਂਪਟਸ (prompts) ਅਤੇ ਲੌਜਿਕ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ। ਉਹ ਸਿਰਫ਼ ਲਾਂਚ ਕਰਦੇ ਹਨ ਅਤੇ ਪ੍ਰਾਰਥਨਾ ਕਰਦੇ ਹਨ।

ਇਹ 'ਮੇਜ਼ਰਮੈਂਟ ਥੀਏਟਰ' (Measurement Theater) ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ। ਇਹ ਉਦੋਂ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਅਸਲ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਫੜਨ ਦੀ ਬਜਾਏ ਏਜੰਟ ਨੂੰ ਵਧੀਆ ਦਿਖਾਉਣ ਲਈ ਡੈਸ਼ਬੋਰਡਾਂ ਅਤੇ ਟੈਸਟ ਸੂਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ। ਤੁਸੀਂ ਬੈਂਚਮਾਰਕਸ 'ਤੇ 95% ਅਕੂਰੇਸੀ ਦਾ ਜਸ਼ਨ ਮਨਾਉਂਦੇ ਹੋ ਜਦੋਂ ਕਿ ਏਜੰਟ ਅਸਲ ਯੂਜ਼ਰ ਦੇ 30% ਸਵਾਲਾਂ ਵਿੱਚ ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ।

ਤੁਹਾਨੂੰ ਸਟੈਟਿਕ ਬੈਂਚਮਾਰਕਸ ਤੋਂ ਹਟ ਕੇ SkillOps ਵੱਲ ਵਧਣ ਦੀ ਲੋੜ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਪੂਰੇ ਏਜੰਟ ਦੀ ਬਜਾਏ ਏਜੰਟ ਦੇ ਖਾਸ ਹੁਨਰਾਂ (skills) ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ।

ਇਹ ਪੁੱਛਣਾ ਬੰਦ ਕਰੋ ਕਿ ਕੀ ਏਜੰਟ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ। ਇਹ ਪੁੱਛਣਾ ਸ਼ੁਰੂ ਕਰੋ ਕਿ ਕਿਹੜੇ ਖਾਸ ਹੁਨਰ ਫੇਲ ਹੋ ਰਹੇ ਹਨ ਅਤੇ ਕਿਉਂ।

ਪ੍ਰੋਡਕਸ਼ਨ ਦੀਆਂ ਮੁਸੀਬਤਾਂ ਤੋਂ ਬਚਣ ਲਈ ਇਸ ਫਰੇਮਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰੋ:

2026 ਦੇ ਅਖੀਰ ਤੱਕ, ਏਜੰਟ ਮੁਲਾਂਕਣ (agent evaluation) ਡਿਪਲਾਈਮੈਂਟ ਦਾ ਇੱਕ ਮਿਆਰੀ ਹਿੱਸਾ ਬਣ ਜਾਵੇਗਾ। ਜੋ ਟੀਮਾਂ ਇਹਨਾਂ ਫਰੇਮਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਨਗੀਆਂ, ਉਹ ਤੇਜ਼ੀ ਨਾਲ ਕੰਮ ਕਰ ਸਕਣਗੀਆਂ। ਜੋ ਨਹੀਂ ਕਰਨਗੀਆਂ, ਉਹ ਲਗਾਤਾਰ ਕਹਿੰਦੀਆਂ ਰਹਿਣਗੀਆਂ, "ਇਹ ਸਟੇਜਿੰਗ ਵਿੱਚ ਕੰਮ ਕਰ ਰਿਹਾ ਸੀ।"

ਕੀ ਤੁਹਾਡੀ ਟੀਮ ਨੇ AI ਏਜੰਟਾਂ ਲਈ ਇਵੈਲੂਏਸ਼ਨ ਇਨਫਰਾਸਟ੍ਰਕਚਰ (evaluation infrastructure) ਤਿਆਰ ਕੀਤਾ ਹੈ? ਕਿਹੜੇ ਮੈਟ੍ਰਿਕਸ (metrics) ਨੇ ਅਸਲ ਵਿੱਚ ਤੁਹਾਡੀਆਂ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਫੜਿਆ?

ਹੇਠਾਂ ਇੱਕ ਕੁਮੈਂਟ ਕਰੋ। ਮੈਂ ਹਰ ਇੱਕ ਦਾ ਜਵਾਬ ਦਿੰਦਾ ਹਾਂ।

ਸਰੋਤ: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi