Agentic AIలో Observability

సాంప్రదాయ మైక్రోసర్వీసెస్ (microservices) Observability సమస్యను పరిష్కరించాయి. Traces మార్గాలను చూపుతాయి. Metrics లాటెన్సీని (latency) చూపుతాయి. Logs కథను వివరిస్తాయి.

Agentic AI ఈ నమూనాను (model) మారుస్తుంది.

ఒక వినియోగదారు ప్రశ్న guardrails, session reads, బహుళ LLM calls, వెబ్ సెర్చ్‌లు మరియు reasoning loopsలను ప్రేరేపించవచ్చు. వైఫల్యాలు తరచుగా సూక్ష్మంగా ఉంటాయి. ఒక టూల్ నెమ్మదిగా ఉండవచ్చు. ఒక context window చాలా పెద్దదిగా పెరిగిపోవచ్చు. ఎటువంటి ఎర్రర్ (error) చూపించకుండానే లోడ్ పెరిగినప్పుడు మోడల్ పనితీరు క్షీణించవచ్చు.

ఈ వ్యవస్థలను మనం ఎలా గమనిస్తామో (observe చేస్తామో) పరీక్షించడానికి నేను ఇటీవల OpenTelemetry NBA Agent డెమోను రన్ చేశాను. నమ్మదగిన AI ఏజెంట్లను నిర్మించడం గురించి నేను నేర్చుకున్న విషయాలు ఇక్కడ ఉన్నాయి.

ఏజెంట్ Observability యొక్క మూడు స్తంభాలు

• Traces, unit tests కంటే ఎక్కువ విలువైనవి. ఒకే ప్రాంప్ట్ (prompt) వివిధ సందర్భాల్లో వేర్వేరు సమాధానాలను ఇవ్వవచ్చు. మీరు కేవలం చివరి టెక్స్ట్‌ను మాత్రమే కాకుండా, ఏజెంట్ అనుసరించిన మార్గాన్ని కూడా చూడాలి.

• ఉద్దేశాన్ని (intent) చర్యతో (action) అనుసంధానించండి. వాతావరణం గురించి అడిగినప్పుడు ఒకే పదంతో సమాధానం సరిపోవచ్చు, కానీ ఆర్థిక సలహాల విషయంలో అది విఫలమవుతుంది. Guardrail నిర్ణయాలను మరియు టూల్ వినియోగాన్ని వినియోగదారు ఉద్దేశంతో అనుసంధానించడం అవసరం.

• ముందుగానే బేస్‌లైన్‌లను (baselines) ఏర్పాటు చేసుకోండి. మోడల్ అప్‌డేట్‌లు మరియు API మార్పులు ప్రవర్తనను మారుస్తాయి. పరిస్థితులు మెరుగుపడ్డాయా లేదా క్షీణించాయా అని తెలుసుకోవడానికి డిప్లాయ్‌మెంట్ (deployment) కంటే ముందే మీకు మెట్రిక్స్ అవసరం.

ఏమి కొలవాలి

మీరు కేవలం మోడల్ కాల్‌ను మాత్రమే పర్యవేక్షించలేరు. మీరు మొత్తం ఎకోసిస్టమ్‌ను (ecosystem) ఇన్‌స్ట్రుమెంట్ (instrument) చేయాలి.

  1. మోడల్ లేయర్ (The Model Layer) ఆపరేషన్ పేర్లు, ప్రొవైడర్ వివరాలు మరియు టోకెన్ వినియోగాన్ని ట్రాక్ చేయండి. డ్యూరేషన్ (duration) మరియు ఫినిష్ రీజన్స్ (finish reasons) పర్యవేక్షించండి.

  2. టూల్స్ మరియు MCP సర్వర్లు టూల్స్‌ను మైక్రోసర్వీసెస్‌లా పరిగణించండి. లాటెన్సీ, సక్సెస్ రేట్లు మరియు ఆర్గ్యుమెంట్లను ట్రాక్ చేయండి. ఏజెంట్ నెమ్మదిగా ఉంటే, అది తరచుగా నెమ్మదైన ఎక్స్‌టర్నల్ API వల్ల జరుగుతుంది తప్ప, LLM వల్ల కాదు.

  3. Guardrails Guardrails ఎంత తరచుగా మరియు ఏ అంశం వల్ల యాక్టివేట్ అవుతున్నాయో కొలవండి. ఇది సేఫ్టీ లేయర్ల (safety layers) ఖర్చును నాయకత్వానికి (leadership) సమర్థించడానికి సహాయపడుతుంది.

  4. మెమరీ మరియు సెషన్లు Context bloat కోసం గమనించండి. ప్రతి టర్న్‌కు ఇన్‌పుట్ టోకెన్ల సంఖ్య పెరగడం వల్ల ఖర్చులు భారీగా పెరగవచ్చు.

మీ డాష్‌బోర్డ్ కోసం కీలక మెట్రిక్స్

• Latency: Time to First Token (TTFT) మరియు ఎండ్-టు-ఎండ్ టర్న్ లాటెన్సీ. • Cost: మొత్తం టోకెన్లు మరియు ప్రతి సెషన్‌కు అంచనా వేసిన ఖర్చు. • Reliability: Span kind (LLM vs Tool vs HTTP) ఆధారంగా ఎర్రర్ రేట్లు. • Behavior: ఏజెంట్ లూప్ డెప్త్ మరియు టూల్ కాల్ ఫ్రీక్వెన్సీ.

Agentic AI అనేది ప్లానర్ సంభావ్యత (probabilistic) ఆధారంగా పనిచేసే ఒక డిస్ట్రిబ్యూటెడ్ సిస్టమ్. మీరు పూర్తి ఏజెంట్ లూప్‌ను చూడలేకపోతే, దానిని ప్రొడక్షన్‌లో (production) నిర్వహించలేరు.

Source: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

Optional learning community: https://t.me/GyaanSetuAi