Agentic AI ನಲ್ಲಿ Observability
ಸಾಂಪ್ರದಾಯಿಕ microservices ಗಳು observability ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಿವೆ. Traces ದಾರಿಗಳನ್ನು ತೋರಿಸುತ್ತವೆ. Metrics latency ಅನ್ನು ತೋರಿಸುತ್ತವೆ. Logs ಕಥೆಯನ್ನು ವಿವರಿಸುತ್ತವೆ.
Agentic AI ಈ ಮಾದರಿಯನ್ನು ಮುರಿಯುತ್ತದೆ.
ಬಳಕೆದಾರರ ಒಂದು ಪ್ರಶ್ನೆಯು guardrails, session reads, ಹಲವಾರು LLM calls, web searches ಮತ್ತು reasoning loops ಅನ್ನು ಪ್ರಚೋದಿಸಬಹುದು. ವೈಫಲ್ಯಗಳು ಹೆಚ್ಚಾಗಿ ಸೂಕ್ಷ್ಮವಾಗಿರುತ್ತವೆ. ಒಂದು tool ನಿಧಾನವಾಗಬಹುದು. context window ತುಂಬಾ ದೊಡ್ಡದಾಗಬಹುದು. ಯಾವುದೇ error ವನ್ನು ನೀಡದೆ load ಅಡಿಯಲ್ಲಿ ಒಂದು model ಕ್ಷೀಣಿಸಬಹುದು.
ಈ ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಾವು ಹೇಗೆ ವೀಕ್ಷಿಸುತ್ತೇವೆ ಎಂದು ಪರೀಕ್ಷಿಸಲು ನಾನು ಇತ್ತೀಚೆಗೆ OpenTelemetry NBA Agent demo ಅನ್ನು ನಡೆಸಿದೆ. ವಿಶ್ವಾಸಾರ್ಹ AI agents ಗಳನ್ನು ನಿರ್ಮಿಸುವ ಬಗ್ಗೆ ನಾನು ಕಲಿತ ವಿಷಯಗಳು ಇಲ್ಲಿವೆ.
Agent Observability ನ ಮೂರು ಸ್ತಂಭಗಳು
• Traces ಗಳು unit tests ಗಿಂತ ಹೆಚ್ಚು ಮೌಲ್ಯಯುತವಾಗಿವೆ. ಒಂದೇ prompt ವಿವಿಧ ಬಾರಿ ವಿಭಿನ್ನ ಉತ್ತರಗಳನ್ನು ನೀಡಬಹುದು. ನೀವು ಕೇವಲ ಅಂತಿಮ ಪಠ್ಯವನ್ನು ಮಾತ್ರವಲ್ಲದೆ, agent ತೆಗೆದುಕೊಂಡ ಹಾದಿಯನ್ನು ನೋಡಲೇಬೇಕು.
• ಉದ್ದೇಶವನ್ನು (intent) ಕ್ರಿಯೆಯೊಂದಿಗೆ (action) ಸಂಬಂಧಿಸಿ. ಹವಾಮಾನದ ಬಗ್ಗೆ ಕೇಳಿದಾಗ ಒಂದು ಪದದ ಉತ್ತರ ಸಾಕು, ಆದರೆ ಹಣಕಾಸಿನ ಸಲಹೆಗೆ ಅದು ವಿಫಲವಾಗುತ್ತದೆ. ನೀವು guardrail ನಿರ್ಧಾರಗಳು ಮತ್ತು tool ಬಳಕೆಯನ್ನು ಬಳಕೆದಾರರ ಉದ್ದೇಶದೊಂದಿಗೆ ಜೋಡಿಸಬೇಕಾಗುತ್ತದೆ.
• ಆರಂಭದಲ್ಲೇ baselines ಅನ್ನು ಸ್ಥಾಪಿಸಿ. Model updates ಮತ್ತು API ಬದಲಾವಣೆಗಳು ವರ್ತನೆಯನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ. ಪರಿಸ್ಥಿತಿ ಸುಧಾರಿಸಿದೆಯೇ ಅಥವಾ ಹದಗೆಟ್ಟಿದೆಯೇ ಎಂದು ತಿಳಿಯಲು deployment ಗಿಂತ ಮೊದಲು ನಿಮಗೆ metrics ಬೇಕು.
ಏನನ್ನು ಅಳೆಯಬೇಕು
ನೀವು ಕೇವಲ model call ಅನ್ನು ಮಾತ್ರ ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ. ನೀವು ಇಡೀ ecosystem ಅನ್ನು instrument ಮಾಡಲೇಬೇಕು.
The Model Layer operation names, provider details ಮತ್ತು token usage ಅನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ. duration ಮತ್ತು finish reasons ಅನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ.
Tools and MCP Servers tools ಗಳನ್ನು microservices ಗಳಂತೆ ಪರಿಗಣಿಸಿ. latency, success rates ಮತ್ತು arguments ಅನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ. ಒಂದು ವೇಳೆ agent ನಿಧಾನವಾಗಿದ್ದರೆ, ಅದು ಹೆಚ್ಚಾಗಿ ನಿಧಾನಗತಿಯ external API ಇರುತ್ತದೆ, LLM ಅಲ್ಲ.
Guardrails guardrails ಎಷ್ಟು ಬಾರಿ ಮತ್ತು ಯಾವ ವಿಷಯದ ಮೂಲಕ ಕಾರ್ಯಗತಗೊಳ್ಳುತ್ತವೆ ಎಂಬುದನ್ನು ಅಳೆಯಿರಿ. ಇದು ನಾಯಕತ್ವಕ್ಕೆ (leadership) safety layers ಗಳ ವೆಚ್ಚವನ್ನು ಸಮರ್ಥಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
Memory and Sessions context bloat ಬಗ್ಗೆ ಎಚ್ಚರವಿರಲಿ. ಪ್ರತಿ turn ನಲ್ಲಿ ಹೆಚ್ಚಾಗುತ್ತಿರುವ input token counts ದೊಡ್ಡ ಮಟ್ಟದ ವೆಚ್ಚದ ಏರಿಕೆಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು.
ನಿಮ್ಮ Dashboard ಗಾಗಿ ಪ್ರಮುಖ Metrics
• Latency: Time to First Token (TTFT) ಮತ್ತು end-to-end turn latency. • Cost: ಒಟ್ಟು tokens ಮತ್ತು ಪ್ರತಿ session ಗಾಗಿ ಅಂದಾಜು ವೆಚ್ಚ. • Reliability: span kind (LLM vs Tool vs HTTP) ಪ್ರಕಾರ error rates. • Behavior: Agent loop depth ಮತ್ತು tool call frequency.
Agentic AI ಎಂಬುದು ಒಂದು distributed system ಆಗಿದ್ದು, ಇಲ್ಲಿ planner ಎಂಬುದು probabilistic ಆಗಿರುತ್ತದೆ. ನೀವು ಸಂಪೂರ್ಣ agent loop ಅನ್ನು ನೋಡದಿದ್ದರೆ, ಅದನ್ನು production ನಲ್ಲಿ ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.
Optional learning community: https://t.me/GyaanSetuAi
