ਜਦੋਂ ਤੁਹਾਡਾ AI Agent production ਵਿੱਚ ਫਸ ਜਾਂਦਾ ਹੈ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ?
AI agent ਦੀਆਂ ਸਭ ਤੋਂ ਮਹਿੰਗੀਆਂ ਅਸਫਲਤਾਵਾਂ ਮਾਡਲ ਦੀਆਂ ਅਸਫਲਤਾਵਾਂ ਨਹੀਂ ਹੁੰਦੀਆਂ।
ਇਹ ਚੁੱਪਚਾਪ ਹੋਣ ਵਾਲੀਆਂ (silent) ਅਸਫਲਤਾਵਾਂ ਹਨ।
Agent ਸਹੀ ਲੱਗਦਾ ਹੈ। Workflow ਚੱਲਦਾ ਰਹਿੰਦਾ ਹੈ। Tokens ਖ਼ਰਚ ਹੁੰਦੇ ਰਹਿੰਦੇ ਹਨ। ਪਰ agent ਕੋਈ ਤਰੱਕੀ ਨਹੀਂ ਕਰਦਾ।
ਮੈਂ ਇਹਨਾਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਵਾਰ-ਵਾਰ ਦੇਖਿਆ ਹੈ:
- ਅਨੰਤ ਲੂਪ (Infinite loops)
- ਰੀਟ੍ਰਾਈ ਸਟੋਰਮ (Retry storms)
- ਚੁੱਪਚਾਪ ਰੁਕਾਵਟਾਂ (Silent stalls)
- ਸਫਲ ਜਵਾਬਾਂ ਦੁਆਰਾ ਛੁਪਾਈਆਂ ਗਈਆਂ ਟੂਲ ਅਸਫਲਤਾਵਾਂ (Tool failures hidden by successful responses)
- ਟੀਚੇ ਤੋਂ ਭਟਕਦੇ ਹੋਏ agents
- Agent ਦੇ ਕੰਮਾਂ ਵਿੱਚ ਕੋਈ ਸਪੱਸ਼ਟਤਾ ਨਾ ਹੋਣਾ
ਇੱਕ ਬਿਹਤਰ prompt ਇਹਨਾਂ ਨੂੰ ਠੀਕ ਨਹੀਂ ਕਰੇਗਾ।
ਤੁਹਾਨੂੰ ਇੱਕ runtime supervision layer ਦੀ ਲੋੜ ਹੈ। ਜ਼ਿਆਦਾਤਰ frameworks agents ਨੂੰ ਚਲਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ। Production ਟੀਮਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਚਾਹੀਦੇ ਹੁੰਦੇ ਹਨ:
- ਇਹ ਕਿਉਂ ਫਸਿਆ ਹੋਇਆ ਹੈ?
- ਕੀ ਇਹ ਤਰੱਕੀ ਕਰ ਰਿਹਾ ਹੈ?
- ਕੀ ਮੈਂ ਇਸਨੂੰ ਰੋਕ (pause) ਸਕਦਾ ਹਾਂ?
- ਕੀ ਮੈਂ ਇਸਨੂੰ ਦੁਬਾਰਾ ਸ਼ੁਰੂ (resume) ਕਰ ਸਕਦਾ ਹਾਂ?
- ਕੀ ਮੈਂ ਇਸਨੂੰ ਬੰਦ (kill) ਕਰ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ?
ਸਿਰਫ਼ logs ਇਹਨਾਂ ਦੇ ਜਵਾਬ ਨਹੀਂ ਦਿੰਦੇ।
Supervision ਨੂੰ agent logic ਤੋਂ ਵੱਖ ਕਰੋ। Workflow ਦੇ ਅੰਦਰ guardrails ਨਾ ਰੱਖੋ। Execution ਨੂੰ ਦੇਖਣ ਲਈ ਇੱਕ ਸਮਰਪਿਤ runtime layer ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ workflows ਨੂੰ ਸਰਲ ਰੱਖਦਾ ਹੈ।
Runtime ਇਹਨਾਂ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਦਾ ਹੈ:
- Loop detection
- Retry management
- Budget limits
- Pause and resume
- Checkpoints
- Stop reasons
- Live telemetry
"failed" ਨੂੰ ਇੱਕ ਸਟੇਟਸ ਵਜੋਂ ਵਰਤਣਾ ਬੰਦ ਕਰੋ। ਖਾਸ ਕਾਰਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ:
- LOOP_DETECTED
- BUDGET_EXCEEDED
- RETRY_LIMIT_REACHED
- TOOL_FAILURE
- TIMEOUT
- USER_PAUSED
ਇਹ operators ਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਸੁਧਾਰ ਕਰਨਾ ਹੈ।
Step counts loop detection ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। Agents ਬਿਨਾਂ ਲੂਪ ਕੀਤੇ ਗਏ ਗਲਤ ਟੀਚੇ ਦਾ ਪਿੱਛਾ ਕਰ ਸਕਦੇ ਹਨ। ਉਹ ਉਦੇਸ਼ ਤੋਂ ਦੂਰ ਜਾਣ ਲਈ ਵੀਹ ਕਦਮ ਖ਼ਰਚ ਕਰ ਦਿੰਦੇ ਹਨ।
ਇਸ ਦੀ ਬਜਾਏ ਇਹ ਪੁੱਛੋ: "ਕੀ ਅਸੀਂ ਕੁਝ ਕਦਮ ਪਹਿਲਾਂ ਨਾਲੋਂ ਟੀਚੇ ਦੇ ਨੇੜੇ ਹਾਂ?" ਇਹ ਭਟਕਣ (drift) ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਖ਼ਰਚ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਰੋਕ ਦਿੰਦਾ ਹੈ।
Pause ਅਤੇ kill ਵਿੱਚ ਅੰਤਰ ਕਰੋ:
- Pause ਸਟੇਟ (state) ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ। ਤੁਸੀਂ ਬਾਅਦ ਵਿੱਚ ਇਸਨੂੰ ਦੁਬਾਰਾ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹੋ।
- Kill ਸਭ ਕੁਝ ਬੰਦ ਕਰ ਦਿੰਦਾ ਹੈ। ਤੁਸੀਂ ਜਾਰੀ ਨਹੀਂ ਰੱਖ ਸਕਦੇ।
ਹਰ ਬਾਹਰੀ ਕਾਰਵਾਈ ਜਿਵੇਂ ਕਿ API calls, browser tasks, ਜਾਂ database writes ਤੋਂ ਪਹਿਲਾਂ checkpoints ਬਣਾਓ। ਜੇਕਰ ਕੋਈ ਪ੍ਰਕਿਰਿਆ (process) ਕ੍ਰੈਸ਼ ਹੋ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਨੂੰ ਪਤਾ ਹੁੰਦਾ ਹੈ ਕਿ ਬਿਲਕੁਲ ਕੀ ਚੱਲ ਰਿਹਾ ਸੀ। ਇਹ ਚੁੱਪਚਾਪ ਹੋਣ ਵਾਲੀਆਂ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਸੁਧਾਰਨਯੋਗ (recoverable) ਬਣਾ ਦਿੰਦਾ ਹੈ।
ਅਸਫਲਤਾਵਾਂ ਦੌਰਾਨ agents ਨੂੰ tokens ਖ਼ਰਚ ਕਰਨ ਤੋਂ ਰੋਕਣ ਲਈ, ਇਹਨਾਂ ਤਿੰਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ:
- Exponential backoff
- Retry budgets
- Circuit breakers
Logs ਅਤੀਤ ਦਿਖਾਉਂਦੇ ਹਨ। Operators ਨੂੰ ਵਰਤਮਾਨ ਦੇਖਣ ਦੀ ਲੋੜ ਹੈ। ਮੌਜੂਦਾ ਕਾਰਜ (task), ਕਦਮ (step), ਟੂਲ (tool), ਅਤੇ ਸਟੇਟਸ ਨੂੰ real time ਵਿੱਚ ਟ੍ਰੈਕ ਕਰੋ।
Agents ਬਣਾਉਣਾ ਆਸਾਨ ਹੈ। ਭਰੋਸੇਯੋਗ (reliable) agents ਬਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੈ। ਭਰੋਸੇਯੋਗਤਾ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਮਾਡਲ ਤੋਂ ਬਾਹਰ ਹੁੰਦੀਆਂ ਹਨ। ਉਹ ਤੁਹਾਡੇ retries, checkpoints, ਅਤੇ supervision ਵਿੱਚ ਹੁੰਦੀਆਂ ਹਨ।
ਤੁਸੀਂ AI agents ਦੇ ਨਾਲ production ਵਿੱਚ ਸਭ ਤੋਂ ਔਖੀ ਅਸਫਲਤਾ ਕਿਹੜੀ ਦੇਖੀ ਹੈ?
Source: https://dev.to/milancharan/what-happens-when-your-ai-agent-gets-stuck-in-production-3327
Optional learning community: https://t.me/GyaanSetuAi
