Agentic AI मधील Observability

पारंपारिक microservices ने observability सोडवली आहे. Traces मार्गांचे दर्शन घडवतात. Metrics latency दर्शवतात. Logs कथा सांगतात.

Agentic AI हे मॉडेल मोडीत काढते.

वापरकर्त्याचा एक प्रश्न guardrails, session reads, अनेक LLM calls, web searches आणि reasoning loops कार्यान्वित करू शकतो. त्रुटी (Failures) अनेकदा सूक्ष्म असतात. एखादे tool संथ असू शकते. context window खूप मोठे होऊ शकते. लोडमुळे एखादे model त्रुटी (error) न दाखवता कार्यक्षमता कमी करू शकते.

या प्रणालींचे निरीक्षण कसे करावे हे तपासण्यासाठी मी अलीकडेच OpenTelemetry NBA Agent demo चालवला. विश्वसनीय AI agents तयार करण्याबद्दल मी काय शिकलो, ते खालीलप्रमाणे आहे.

Agent Observability चे तीन स्तंभ

• Traces हे unit tests पेक्षा अधिक मौल्यवान आहेत. एकच prompt वेगवेगळ्या वेळी वेगवेगळी उत्तरे देऊ शकते. तुम्हाला केवळ अंतिम मजकूर नाही, तर agent ने घेतलेला मार्ग देखील पाहणे आवश्यक आहे.

• intent आणि action यांचा संबंध जोडा. हवामानासाठी एक शब्दाचे उत्तर चालते, परंतु आर्थिक सल्ल्यासाठी ते अपयशी ठरते. तुम्हाला guardrail निर्णय आणि tool चा वापर यांचा वापरकर्त्याच्या intent शी जोडणे आवश्यक आहे.

• सुरुवातीलाच baselines निश्चित करा. Model updates आणि API मधील बदल वर्तनात बदल घडवून आणतात. गोष्टी सुधारल्या आहेत की बिघडल्या आहेत हे जाणून घेण्यासाठी तुम्हाला deployment पूर्वी metrics ची आवश्यकता असते.

काय मोजावे (What to Measure)

तुम्ही केवळ model call वर लक्ष ठेवू शकत नाही. तुम्हाला संपूर्ण ecosystem ला instrument करणे आवश्यक आहे.

  1. The Model Layer operation names, provider details आणि token usage ट्रॅक करा. duration आणि finish reasons वर लक्ष ठेवा.

  2. Tools आणि MCP Servers tools ला microservices प्रमाणे हाताळा. latency, success rates आणि arguments ट्रॅक करा. जर agent संथ असेल, तर ते सहसा एखादे संथ external API असते, LLM नाही.

  3. Guardrails guardrails किती वेळा आणि कोणत्या विषयामुळे कार्यान्वित होतात हे मोजा. यामुळे नेतृत्वासमोर (leadership) safety layers च्या खर्चाचे समर्थन करण्यास मदत होते.

  4. Memory आणि Sessions context bloat कडे लक्ष द्या. प्रत्येक turn मध्ये वाढणारे input token counts प्रचंड खर्च वाढवू शकतात.

तुमच्या Dashboard साठी महत्त्वाचे Metrics

• Latency: Time to First Token (TTFT) आणि end-to-end turn latency. • Cost: एकूण tokens आणि प्रति session अंदाजित खर्च. • Reliability: span kind नुसार error rates (LLM vs Tool vs HTTP). • Behavior: Agent loop depth आणि tool call frequency.

Agentic AI ही एक distributed system आहे जिथे planner हा probabilistic असतो. जर तुम्हाला पूर्ण agent loop दिसत नसेल, तर तुम्ही ते production मध्ये ऑपरेट करू शकत नाही.

Source: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

वैकल्पिक शिक्षण समुदाय (Optional learning community): https://t.me/GyaanSetuAi