Agentic AI માં Observability

પરંપરાગત microservices એ observability ની સમસ્યા હલ કરી દીધી છે. Traces માર્ગો દર્શાવે છે. Metrics લેટન્સી (latency) દર્શાવે છે. Logs વાર્તા કહે છે.

Agentic AI આ મોડેલને તોડી નાખે છે.

વપરાશકર્તાનો એક પ્રશ્ન guardrails, session reads, અનેક LLM calls, વેબ સર્ચ અને reasoning loops ને સક્રિય કરી શકે છે. નિષ્ફળતાઓ ઘણીવાર સૂક્ષ્મ હોય છે. કોઈ tool ધીમું હોઈ શકે છે. context window ખૂબ મોટું થઈ શકે છે. કોઈ model ભૂલ (error) આપ્યા વિના લોડ હેઠળ તેની કામગીરી ઘટાડી શકે છે.

મેં તાજેતરમાં આ સિસ્ટમ્સનું અવલોકન કેવી રીતે કરવું તે ચકાસવા માટે OpenTelemetry NBA Agent ડેમો ચલાવ્યો હતો. વિશ્વસનીય AI agents બનાવવા વિશે મેં જે શીખ્યું તે અહીં છે.

Agent Observability ના ત્રણ સ્તંભો

• Traces એ unit tests કરતા વધુ મૂલ્યવાન છે. એક જ prompt અલગ-અલગ વખત અલગ-અલગ જવાબો આપી શકે છે. તમારે માત્ર અંતિમ ટેક્સ્ટ જ નહીં, પરંતુ એજન્ટે લીધેલો માર્ગ પણ જોવો જોઈએ.

• ઇન્ટેન્ટ (intent) ને એક્શન (action) સાથે જોડો. હવામાન માટે એક શબ્દનો જવાબ કામ કરી શકે છે પરંતુ નાણાકીય સલાહ માટે તે નિષ્ફળ જાય છે. તમારે guardrail નિર્ણયો અને tool ના ઉપયોગને વપરાશકર્તાના ઇન્ટેન્ટ સાથે જોડવાની જરૂર છે.

• વહેલી તકે baselines સ્થાપિત કરો. Model updates અને API ફેરફારો વર્તણૂકમાં ફેરફાર કરે છે. વસ્તુઓ સુધરી છે કે બગડી છે તે જાણવા માટે તમારે deployment પહેલા metrics ની જરૂર છે.

શું માપવું

તમે ફક્ત model call પર જ દેખરેખ રાખી શકતા નથી. તમારે સમગ્ર ઇકોસિસ્ટમને instrument કરવી પડશે.

  1. The Model Layer ઓપરેશનના નામ, પ્રોવાઈડરની વિગતો અને token usage ને ટ્રેક કરો. તેની અવધિ (duration) અને finish reasons પર દેખરેખ રાખો.

  2. Tools અને MCP Servers Tools ને microservices ની જેમ ગણો. latency, success rates અને arguments ને ટ્રેક કરો. જો એજન્ટ ધીમો હોય, તો તે ઘણીવાર ધીમો external API હોય છે, LLM નહીં.

  3. Guardrails guardrails કેટલી વાર અને કયા વિષય દ્વારા સક્રિય થાય છે તે માપો. આ નેતૃત્વ (leadership) ને સેફ્ટી લેયર્સના ખર્ચને યોગ્ય ઠેરવવામાં મદદ કરે છે.

  4. Memory અને Sessions context bloat પર નજર રાખો. દરેક ટર્ન દીઠ વધતા input token counts ને કારણે ખર્ચમાં મોટો ઉછાળો આવી શકે છે.

તમારા Dashboard માટે મુખ્ય Metrics

• Latency: Time to First Token (TTFT) અને end-to-end turn latency. • Cost: કુલ tokens અને દરેક session દીઠ અંદાજિત ખર્ચ. • Reliability: span kind (LLM vs Tool vs HTTP) મુજબ error rates. • Behavior: Agent loop depth અને tool call frequency.

Agentic AI એ એક distributed system છે જ્યાં planner સંભવિતતા (probabilistic) પર આધારિત છે. જો તમે સંપૂર્ણ agent loop જોઈ શકતા નથી, તો તમે તેને production માં ચલાવી શકતા નથી.

Source: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi