AI Agent ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ
ਜ਼ਿਆਦਾਤਰ ਲੋਕ ਸੋਚਦੇ ਹਨ ਕਿ AI agent ਦਾ ਮੁਲਾਂਕਣ ਲਾਂਚ ਹੋਣ ਵੇਲੇ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ। ਉਹ ਇੱਕ benchmark 'ਤੇ ਉੱਚ ਸਕੋਰ ਦੇਖਦੇ ਹਨ ਅਤੇ ਮੰਨ ਲੈਂਦੇ ਹਨ ਕਿ agent ਤਿਆਰ ਹੈ। ਇਹ ਇੱਕ ਗਲਤੀ ਹੈ।
ਇੱਕ ਉੱਚ ਸਕੋਰ ਦਾ ਅਕਸਰ ਮਤਲਬ ਹੁੰਦਾ ਹੈ ਕਿ agent ਨੇ ਕੁਝ ਖਾਸ ਮਾਮਲਿਆਂ ਵਿੱਚ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਹੈ ਕਿ agent ਅਸਲ ਦੁਨੀਆ ਲਈ ਤਿਆਰ ਹੈ।
ਮੌਜੂਦਾ benchmarks ਵਿੱਚ ਵੱਡੀਆਂ ਕਮੀਆਂ ਹਨ। 15 ਪ੍ਰਮੁੱਖ benchmarks ਦੀ ਸਮੀਖਿਆ ਤੋਂ ਪਤਾ ਲੱਗਾ:
- ਜ਼ੀਰੋ benchmarks ਨੇ ਆਪਣੇ ਸਕੋਰਾਂ ਵਿੱਚ ਸੁਰੱਖਿਆ (safety or security) ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ।
- ਜ਼ੀਰੋ benchmarks ਨੇ ਲਾਗਤ ਕੁਸ਼ਲਤਾ (cost efficiency) ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ।
- 15 ਵਿੱਚੋਂ 13 ਸਿਰਫ਼ binary ਸਫਲਤਾ ਜਾਂ ਅਸਫਲਤਾ 'ਤੇ ਨਿਰਭਰ ਸਨ।
- ਕੋਈ ਵੀ 50% deployment readiness ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਿਆ।
ਸਿਰਫ਼ ਅੰਤਿਮ ਆਉਟਪੁੱਟ (final output) ਦੀ ਜਾਂਚ ਕਰਨਾ ਖ਼ਤਰਨਾਕ ਹੈ। ਜੇਕਰ ਕੋਈ agent ਸਹੀ ਜਵਾਬ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਇਹ ਸਫਲਤਾ ਵਾਂਗ ਲੱਗਦਾ ਹੈ। ਪਰ ਜਿਸ ਰਸਤੇ (path) 'ਤੇ ਉਹ ਚੱਲਿਆ ਹੈ, ਉਹ ਖ਼ਰਾਬ ਹੋ ਸਕਦਾ ਹੈ।
ਇੱਕ agent ਇਹ ਕਰ ਸਕਦਾ ਹੈ:
- ਸਹੀ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਗਲਤ tools ਦੀ ਵਰਤੋਂ ਕਰਨਾ।
- ਵੈਰੀਫਿਕੇਸ਼ਨ ਸਟੈਪਸ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਛੱਡ ਦੇਣਾ।
- ਤੱਥਾਂ ਬਾਰੇ ਗਲਤ ਜਾਣਕਾਰੀ (hallucinate) ਦੇਣਾ ਪਰ ਸਹੀ ਸਿੱਟੇ 'ਤੇ ਪਹੁੰਚਣਾ।
- ਲਗਾਤਾਰ ਕੋਸ਼ਿਸ਼ਾਂ (retries) ਨਾਲ ਤੁਹਾਡੇ ਬਜਟ ਨੂੰ ਖਤਮ ਕਰ ਦੇਣਾ।
ਜੇਕਰ ਕੋਈ customer support agent ਗਲਤ ਖਾਤੇ ਲਈ ਰਿਫੰਡ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ, ਤਾਂ ਆਉਟਪੁੱਟ ਠੀਕ ਲੱਗਦਾ ਹੈ। ਪਰ agent ਅਸਫਲ ਰਿਹਾ।
ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਜਵਾਬ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਉਸਦੇ ਰਸਤੇ (trajectory) ਨੂੰ ਵੀ ਸਕੋਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
ਅਸਲ ਮੁਲਾਂਕਣ ਵਿੱਚ ਇਹਨਾਂ ਪਹਿਲੂਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ:
- Tool ਅਤੇ parameter ਦੀ ਸਹੀਤਾ।
- Grounding ਅਤੇ ਸ਼ੁੱਧਤਾ (accuracy)।
- ਲਾਗਤ (cost) ਅਤੇ ਲੇਟੈਂਸੀ (latency)।
- ਨੀਤੀ (policy) ਅਤੇ ਸੁਰੱਖਿਆ (safety)।
- ਗਲਤੀਆਂ ਤੋਂ ਸੁਧਾਰ (recovery from errors)।
ਮੁਲਾਂਕਣ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਲਾਂਚ ਰਿਪੋਰਟ ਵਜੋਂ ਦੇਖਣਾ ਬੰਦ ਕਰੋ। ਇਸਨੂੰ ਇੱਕ ਨਿਰੰਤਰ ਲੂਪ (continuous loop) ਵਜੋਂ ਲਓ।
ਕੰਮ ਕਰਨ ਦਾ ਬਿਹਤਰ ਤਰੀਕਾ:
- ਸਮਰੱਥਾ ਲਈ ਜਨਤਕ benchmarks ਬਣਾਓ।
- ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ offline ਟੈਸਟ ਚਲਾਓ।
- ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ production traces ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ।
- Tool calls, arguments, ਅਤੇ ਵਿਚਕਾਰਲੇ ਫੈਸਲਿਆਂ ਨੂੰ ਕੈਪਚਰ ਕਰੋ।
- ਆਪਣੇ offline datasets ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਅਸਫਲ production traces ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਮੁਲਾਂਕਣ ਇੱਕ observability ਦੀ ਸਮੱਸਿਆ ਹੈ। ਇੱਕ agent ਉਦੋਂ ਹੀ ਸਫਲ ਹੁੰਦਾ ਹੈ ਜੇਕਰ ਇਸਦਾ ਵਿਵਹਾਰ ਤੁਹਾਡੇ ਵਪਾਰਕ ਟੀਚਿਆਂ, ਤੁਹਾਡੇ tools, ਅਤੇ ਤੁਹਾਡੇ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ (user intent) ਦੇ ਅਨੁਕੂਲ ਰਹੇ। ਇਹ ਚੀਜ਼ਾਂ ਹਰ ਰੋਜ਼ ਬਦਲਦੀਆਂ ਹਨ।
ਸਿਰਫ਼ traces ਨੂੰ ਸਟੋਰ ਨਾ ਕਰੋ। ਉਹਨਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ। ਮੁਲਾਂਕਣ ਤੋਂ ਬਿਨਾਂ trace ਸਟੋਰ ਕਰਨਾ ਸਿਰਫ਼ ਇੱਕ ਸਰਚ ਸਮੱਸਿਆ ਹੈ। production ਡੇਟਾ ਤੋਂ ਬਿਨਾਂ offline ਮੁਲਾਂਕਣ ਸਿਰਫ਼ ਇੱਕ ਦਿਖਾਵਾ ਹੈ।
ਮੁਲਾਂਕਣ ਦਾ ਆਖਰੀ ਕਦਮ ਸਿਰਫ਼ ਇੱਕ ਸਕੋਰ ਨਹੀਂ ਹੋਣਾ ਚਾਹੀਦਾ। ਆਖਰੀ ਕਦਮ ਅਗਲਾ trace ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।
ਸਰੋਤ: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi
