Agentic AI ਵਿੱਚ Observability
ਰਵਾਇਤੀ microservices ਨੇ observability ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰ ਦਿੱਤਾ ਹੈ। Traces ਰਸਤੇ ਦਿਖਾਉਂਦੇ ਹਨ। Metrics ਲੇਟੈਂਸੀ (latency) ਦਿਖਾਉਂਦੇ ਹਨ। Logs ਕਹਾਣੀ ਦੱਸਦੇ ਹਨ।
Agentic AI ਇਸ ਮਾਡਲ ਨੂੰ ਤੋੜ ਦਿੰਦਾ ਹੈ।
ਇੱਕ ਉਪਭੋਗਤਾ ਦਾ ਸਵਾਲ guardrails, session reads, ਕਈ LLM calls, ਵੈੱਬ ਸਰਚ ਅਤੇ reasoning loops ਨੂੰ ਤ੍ਰਿਗਰ ਕਰ ਸਕਦਾ ਹੈ। ਅਸਫਲਤਾਵਾਂ ਅਕਸਰ ਬਹੁਤ ਸੂਖਮ ਹੁੰਦੀਆਂ ਹਨ। ਕੋਈ ਟੂਲ ਹੌਲੀ ਹੋ ਸਕਦਾ ਹੈ। Context window ਬਹੁਤ ਵੱਡੀ ਹੋ ਸਕਦੀ ਹੈ। ਕੋਈ ਮਾਡਲ ਬਿਨਾਂ ਕਿਸੇ error ਦੇ ਲੋਡ ਹੇਠ ਗਿਰਾਵਟ (degrade) ਦਾ ਸ਼ਿਕਾਰ ਹੋ ਸਕਦਾ ਹੈ।
ਮੈਂ ਹਾਲ ਹੀ ਵਿੱਚ ਇਹ ਟੈਸਟ ਕਰਨ ਲਈ ਕਿ ਅਸੀਂ ਇਹਨਾਂ ਸਿਸਟਮਾਂ ਨੂੰ ਕਿਵੇਂ ਦੇਖਦੇ ਹਾਂ, OpenTelemetry NBA Agent ਡੈਮੋ ਚਲਾਇਆ। ਭਰੋਸੇਯੋਗ AI agents ਬਣਾਉਣ ਬਾਰੇ ਮੈਂ ਜੋ ਸਿੱਖਿਆ ਹੈ, ਉਹ ਇੱਥੇ ਹੈ।
Agent Observability ਦੇ ਤਿੰਨ ਥੰਮ੍ਹ
• Traces, unit tests ਨਾਲੋਂ ਵਧੇਰੇ ਕੀਮਤੀ ਹਨ। ਇੱਕੋ ਜਿਹਾ prompt ਵੱਖ-ਵੱਖ ਵਾਰ ਵੱਖ-ਵੱਖ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਅੰਤਿਮ ਟੈਕਸਟ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਉਸ ਰਸਤੇ ਨੂੰ ਵੀ ਦੇਖਣਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸ ਰਾਹੀਂ agent ਗਿਆ ਸੀ।
• ਇਰਾਦੇ (intent) ਨੂੰ ਕਾਰਵਾਈ (action) ਨਾਲ ਜੋੜੋ। ਮੌਸਮ ਲਈ ਇੱਕ ਸ਼ਬਦ ਦਾ ਜਵਾਬ ਕਾਫ਼ੀ ਹੈ ਪਰ ਵਿੱਤੀ ਸਲਾਹ ਲਈ ਇਹ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ। ਤੁਹਾਨੂੰ guardrail ਫੈਸਲਿਆਂ ਅਤੇ tool ਦੀ ਵਰਤੋਂ ਨੂੰ ਉਪਭੋਗਤਾ ਦੇ intent ਨਾਲ ਜੋੜਨ ਦੀ ਲੋੜ ਹੈ।
• ਸ਼ੁਰੂ ਵਿੱਚ ਹੀ baselines ਸਥਾਪਿਤ ਕਰੋ। Model updates ਅਤੇ API ਤਬਦੀਲੀਆਂ ਵਿਵਹਾਰ ਨੂੰ ਬਦਲ ਦਿੰਦੀਆਂ ਹਨ। ਤੁਹਾਨੂੰ ਇਹ ਜਾਣਨ ਲਈ ਕਿ ਚੀਜ਼ਾਂ ਵਿੱਚ ਸੁਧਾਰ ਹੋਇਆ ਹੈ ਜਾਂ ਵਿਗਾੜ, deployment ਤੋਂ ਪਹਿਲਾਂ metrics ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਕੀ ਮਾਪਣਾ ਹੈ
ਤੁਸੀਂ ਸਿਰਫ਼ model call ਦੀ ਨਿਗਰਾਨੀ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਤੁਹਾਨੂੰ ਪੂਰੇ ecosystem ਨੂੰ instrument ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
The Model Layer operation names, provider details, ਅਤੇ token usage ਨੂੰ ਟ੍ਰੈਕ ਕਰੋ। duration ਅਤੇ finish reasons ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ।
Tools ਅਤੇ MCP Servers Tools ਨੂੰ microservices ਵਾਂਗ ਸਮਝੋ। latency, success rates, ਅਤੇ arguments ਨੂੰ ਟ੍ਰੈਕ ਕਰੋ। ਜੇਕਰ ਕੋਈ agent ਹੌਲੀ ਹੈ, ਤਾਂ ਅਕਸਰ ਇਹ ਇੱਕ ਹੌਲੀ external API ਹੁੰਦੀ ਹੈ, LLM ਨਹੀਂ।
Guardrails ਮਾਪੋ ਕਿ guardrails ਕਿੰਨੀ ਵਾਰ ਅਤੇ ਕਿਸ ਵਿਸ਼ੇ ਦੁਆਰਾ ਚਾਲੂ ਹੁੰਦੇ ਹਨ। ਇਹ ਲੀਡਰਸ਼ਿਪ ਨੂੰ ਸੁਰੱਖਿਆ ਪਰਤਾਂ (safety layers) ਦੀ ਲਾਗਤ ਨੂੰ ਜਾਇਜ਼ ਠਹਿਰਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
Memory ਅਤੇ Sessions Context bloat 'ਤੇ ਨਜ਼ਰ ਰੱਖੋ। ਹਰ turn ਵਿੱਚ ਵਧਦੇ input token counts ਨਾਲ ਲਾਗਤ ਵਿੱਚ ਭਾਰੀ ਵਾਧਾ ਹੋ ਸਕਦਾ ਹੈ।
ਤੁਹਾਡੇ Dashboard ਲਈ ਮੁੱਖ Metrics
• Latency: Time to First Token (TTFT) ਅਤੇ end-to-end turn latency। • Cost: ਕੁੱਲ tokens ਅਤੇ ਹਰੇਕ session ਲਈ ਅਨੁਮਾਨਿਤ ਖਰਚਾ। • Reliability: span kind (LLM vs Tool vs HTTP) ਅਨੁਸਾਰ error rates। • Behavior: Agent loop depth ਅਤੇ tool call frequency।
Agentic AI ਇੱਕ distributed system ਹੈ ਜਿੱਥੇ planner probabilistic ਹੁੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਪੂਰਾ agent loop ਨਹੀਂ ਦੇਖ ਸਕਦੇ, ਤਾਂ ਤੁਸੀਂ ਇਸਨੂੰ production ਵਿੱਚ ਨਹੀਂ ਚਲਾ ਸਕਦੇ।
Optional learning community: https://t.me/GyaanSetuAi
