تست سیستم‌های هوش مصنوعی عامل‌محور (Agentic AI)

ساخت یک عامل هوش مصنوعی آسان است. اما اطمینان از اینکه از کنترل خارج نشود، دشوار است. برای انتقال از مرحله نمونه اولیه به تولید، به یک چارچوب تست سخت‌گیرانه نیاز دارید.

برای ایمن‌سازی عامل خود، این هشت مرحله را دنبال کنید:

مرحله ۱: تست‌های مؤلفه (Component tests) برای هر لایه، تست‌های واحد (unit tests) بنویسید. عامل تحقیق، ابزارهای جستجو و حافظه خود را تست کنید. از داده‌های ساختگی (mock data) تأیید شده توسط کارشناسان خود استفاده کنید. APIهای خارجی خود مانند Shopify یا Meta را Stub کنید. اگر یک API از دسترس خارج شد، تست شما نباید به دلیل آن با شکست مواجه شود.

مرحله ۲: مخزن پرامپت (The prompt repository) کتابخانه‌ای از پرامپت‌های دقیق بسازید. آن‌ها را بر اساس حوزه کسب‌وکار برچسب‌گذاری کنید. موارد شکست مانند تزریق پرامپت (prompt injection) و پاسخ‌های خالی ابزارها را در نظر بگیرید. گفتگوهای چندمرحله‌ای (multi-turn) را تست کنید تا از عملکرد صحیح حافظه مطمئن شوید. بررسی کنید که داده‌های کاربر بین جلسات (sessions) نشت نکند.

مرحله ۳: پوشش و مسیر (Coverage and trajectory) بررسی کنید که آیا هر ابزار واقعاً اجرا می‌شود یا خیر. سپس، مسیری را که عامل طی کرده است بررسی کنید. صرفاً اجرای یک ابزار کافی نیست. عامل باید از ابزار درست، با آرگومان‌های درست و با ترتیب درست استفاده کند.

مرحله ۴: اجراهای نسخه‌بندی شده (Versioned runs) به هر اجرا یک شماره نسخه اختصاص دهید. تمام پاسخ‌ها را ذخیره کنید. هر پرامپت را چندین بار اجرا کنید تا اثر تصادفی بودن مدل (randomness) را در نظر بگیرید. نرخ موفقیت، هزینه، توکن‌ها و تأخیر (latency) را ردیابی کنید. دقت، یک موازنه تجاری در برابر سرعت و قیمت است.

مرحله ۵: ذخیره‌ساز حقیقت مرجع (Ground truth store) پاسخ‌های تأیید شده را برای هر پرامپت نگه دارید. تصمیم بگیرید چه کسی می‌تواند این پاسخ‌ها را تغییر دهد. اگر با تغییر محصول خود، حقیقت‌های مرجع (ground truths) را به‌روزرسانی نکنید، تست‌های شما به درستی با شکست مواجه خواهند شد.

مرحله ۶: ارزیاب (The evaluator) اجراها را بر اساس حقیقت مرجع خود امتیازدهی کنید. از یک داور LLM برای بررسی دقت و صحت استفاده کنید. مراقب سوگیری (bias) داور باشید. امتیازهای LLM را با برچسب‌های انسانی مقایسه کنید تا از دقت آن‌ها مطمئن شوید.

مرحله ۷: بازبینی انسانی (Human review) یک داشبورد برای موارد با امتیاز پایین ایجاد کنید. اجازه دهید انسان‌ها خطاها را اصلاح کنند. از این اصلاحات انسانی برای آموزش داور LLM خود استفاده کنید.

مرحله ۸: یکپارچه‌سازی CI/CD تست‌های مؤلفه را در هر Pull Request اجرا کنید. کل مجموعه تست‌ها را هر شب اجرا کنید. آستانه‌ای تعیین کنید که اگر امتیازها کاهش یافت، از استقرار (deployment) جلوگیری کند.

منبع: https://dev.to/manikandan_pandurangan_16/dont-let-your-jarvis-become-ultron-a-field-guide-to-testing-agentic-ai-system-5c7m

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi