مشاهدهپذیری در هوش مصنوعی عاملمحور (Agentic AI)
میکروسرویسهای سنتی مسئله مشاهدهپذیری را حل کردهاند. ردپاها (Traces) مسیرها را نشان میدهند. معیارها (Metrics) تأخیر را نشان میدهند. لاگها داستان را روایت میکنند.
هوش مصنوعی عاملمحور این مدل را میشکند.
یک سؤال کاربر میتواند باعث فعال شدن لایههای حفاظتی (guardrails)، خواندن نشستها (sessions)، چندین فراخوانی LLM، جستجوهای وب و حلقههای استدلال شود. شکستها اغلب ظریف و نامحسوس هستند. یک ابزار ممکن است کند باشد. پنجره کانتکست (context window) ممکن است بیش از حد بزرگ شود. یک مدل ممکن است تحت فشار، بدون بازگرداندن خطا، دچار افت کیفیت شود.
من اخیراً دمو OpenTelemetry NBA Agent را اجرا کردم تا نحوه مشاهده این سیستمها را آزمایش کنم. در اینجا آنچه درباره ساخت عاملهای هوش مصنوعی قابل اعتماد آموختم آورده شده است.
سه ستون اصلی مشاهدهپذیری عامل (Agent)
• ردپاها (Traces) ارزشمندتر از تستهای واحد (unit tests) هستند. یک پرامپت مشابه میتواند در اجراهای مختلف، پاسخهای متفاوتی تولید کند. شما باید مسیری را که عامل طی کرده است ببینید، نه فقط متن نهایی را.
• قصد کاربر (intent) را با عمل مرتبط کنید. یک پاسخ تککلمهای برای وضعیت آبوهوا مناسب است اما برای مشاوره مالی شکست میخورد. شما باید تصمیمات لایههای حفاظتی و استفاده از ابزارها را به قصد کاربر پیوند دهید.
• خط مبنا (baselines) را زودتر تعیین کنید. بهروزرسانی مدلها و تغییرات API رفتار سیستم را تغییر میدهند. شما قبل از استقرار (deployment) به معیارها نیاز دارید تا بدانید آیا اوضاع بهتر شده یا بدتر.
چه چیزی را باید اندازهگیری کرد
شما نمیتوانید فقط فراخوانی مدل را مانیتور کنید. باید کل اکوسیستم را مجهز به ابزارهای اندازهگیری (instrument) کنید.
۱. لایه مدل (Model Layer) نام عملیاتها، جزئیات ارائهدهنده (provider) و میزان استفاده از توکن را دنبال کنید. مدتزمان و دلایل پایان (finish reasons) را مانیتور کنید.
۲. ابزارها و سرورهای MCP با ابزارها مانند میکروسرویسها رفتار کنید. تأخیر، نرخ موفقیت و آرگومانها را دنبال کنید. اگر یک عامل کند است، اغلب به دلیل کندی یک API خارجی است، نه LLM.
۳. لایههای حفاظتی (Guardrails) اندازهگیری کنید که لایههای حفاظتی با چه موضوعاتی و با چه فرکانسی فعال میشوند. این کار به توجیه هزینههای لایههای امنیتی برای مدیریت کمک میکند.
۴. حافظه و نشستها (Sessions) مراقب تورم کانتکست (context bloat) باشید. افزایش تعداد توکنهای ورودی در هر نوبت میتواند منجر به جهشهای عظیم در هزینه شود.
معیارهای کلیدی برای داشبورد شما
• تأخیر (Latency): زمان تا اولین توکن (TTFT) و تأخیر کلِ یک نوبت (end-to-end turn latency). • هزینه (Cost): مجموع توکنها و هزینه تخمینی در هر نشست. • قابلیت اطمینان (Reliability): نرخ خطا بر اساس نوع Span (LLM در مقابل Tool در مقابل HTTP). • رفتار (Behavior): عمق حلقه عامل و فرکانس فراخوانی ابزارها.
هوش مصنوعی عاملمحور یک سیستم توزیعشده است که در آن برنامهریز (planner) احتمالی (probabilistic) است. اگر نتوانید کل حلقه عامل را ببینید، نمیتوانید آن را در محیط عملیاتی (production) مدیریت کنید.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi
