Agentic AI-তে Observability
প্রথাগত microservices-এ observability-র সমাধান হয়ে গেছে। Traces পথ দেখায়। Metrics ল্যাটেন্সি (latency) দেখায়। Logs গল্প বলে।
Agentic AI এই মডেলটিকে ভেঙে দেয়।
একটি ব্যবহারকারীর প্রশ্ন guardrails, session reads, একাধিক LLM call, ওয়েব সার্চ এবং reasoning loops ট্রিগার করতে পারে। ব্যর্থতাগুলো প্রায়শই সূক্ষ্ম হয়। একটি tool ধীরগতির হতে পারে। একটি context window অনেক বেশি বড় হয়ে যেতে পারে। কোনো error না দিয়েও লোডের কারণে একটি model-এর কার্যক্ষমতা কমে যেতে পারে।
আমি সম্প্রতি এই সিস্টেমগুলো কীভাবে পর্যবেক্ষণ করা যায় তা পরীক্ষা করার জন্য OpenTelemetry NBA Agent ডেমোটি চালিয়েছি। নির্ভরযোগ্য AI agent তৈরির বিষয়ে আমি যা শিখেছি তা নিচে দেওয়া হলো।
Agent Observability-র তিনটি স্তম্ভ
• Traces ইউনিট টেস্টের চেয়ে বেশি মূল্যবান। একই prompt বিভিন্ন সময়ে ভিন্ন ভিন্ন উত্তর দিতে পারে। আপনাকে শুধু চূড়ান্ত টেক্সট নয়, বরং agentটি কোন পথ অনুসরণ করেছে তাও দেখতে হবে।
• Intent-এর সাথে action-এর সম্পর্ক স্থাপন করুন। আবহাওয়ার ক্ষেত্রে একটি শব্দের উত্তর কার্যকর হলেও আর্থিক পরামর্শের ক্ষেত্রে তা ব্যর্থ হয়। আপনাকে guardrail সিদ্ধান্ত এবং tool ব্যবহারের সাথে ব্যবহারকারীর intent-এর সংযোগ স্থাপন করতে হবে।
• দ্রুত baseline নির্ধারণ করুন। Model update এবং API পরিবর্তন আচরণ বদলে দিতে পারে। কোনো deployment-এর আগে আপনার metrics প্রয়োজন যাতে আপনি বুঝতে পারেন পরিস্থিতি উন্নত হয়েছে নাকি অবনতি হয়েছে।
কী পরিমাপ করবেন
আপনি কেবল model call মনিটর করলেই হবে না। আপনাকে পুরো ecosystem-টি instrument করতে হবে।
The Model Layer operation name, provider details এবং token usage ট্র্যাক করুন। duration এবং finish reasons মনিটর করুন।
Tools and MCP Servers tools-গুলোকে microservices-এর মতো বিবেচনা করুন। latency, success rates এবং arguments ট্র্যাক করুন। যদি একটি agent ধীরগতির হয়, তবে সেটি প্রায়শই একটি ধীরগতির external API, LLM নয়।
Guardrails guardrails কতবার এবং কোন বিষয়ের কারণে ট্রিগার হচ্ছে তা পরিমাপ করুন। এটি নেতৃত্বকে (leadership) safety layer-এর খরচ যৌক্তিকতা দেখাতে সাহায্য করে।
Memory and Sessions context bloat-এর দিকে নজর রাখুন। প্রতি টার্নে ইনপুট token count বৃদ্ধি পাওয়া বিশাল খরচের কারণ হতে পারে।
আপনার ড্যাশবোর্ডের জন্য মূল Metrics
• Latency: Time to First Token (TTFT) এবং end-to-end turn latency। • Cost: মোট token এবং প্রতি session-এর আনুমানিক খরচ। • Reliability: span kind অনুযায়ী error rate (LLM বনাম Tool বনাম HTTP)। • Behavior: Agent loop depth এবং tool call frequency।
Agentic AI হলো একটি distributed system যেখানে planner হলো probabilistic। আপনি যদি সম্পূর্ণ agent loop দেখতে না পান, তবে আপনি এটি production-এ পরিচালনা করতে পারবেন না।
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi
