تست سیستمهای هوش مصنوعی عاملمحور (Agentic AI)
ساخت یک عامل هوش مصنوعی آسان است. اما اطمینان از اینکه از کنترل خارج نشود، دشوار است. برای انتقال از مرحله نمونه اولیه به تولید، به یک چارچوب تست سختگیرانه نیاز دارید.
برای ایمنسازی عامل خود، این هشت مرحله را دنبال کنید:
مرحله ۱: تستهای مؤلفه (Component tests) برای هر لایه، تستهای واحد (unit tests) بنویسید. عامل تحقیق، ابزارهای جستجو و حافظه خود را تست کنید. از دادههای ساختگی (mock data) تأیید شده توسط کارشناسان خود استفاده کنید. APIهای خارجی خود مانند Shopify یا Meta را Stub کنید. اگر یک API از دسترس خارج شد، تست شما نباید به دلیل آن با شکست مواجه شود.
مرحله ۲: مخزن پرامپت (The prompt repository) کتابخانهای از پرامپتهای دقیق بسازید. آنها را بر اساس حوزه کسبوکار برچسبگذاری کنید. موارد شکست مانند تزریق پرامپت (prompt injection) و پاسخهای خالی ابزارها را در نظر بگیرید. گفتگوهای چندمرحلهای (multi-turn) را تست کنید تا از عملکرد صحیح حافظه مطمئن شوید. بررسی کنید که دادههای کاربر بین جلسات (sessions) نشت نکند.
مرحله ۳: پوشش و مسیر (Coverage and trajectory) بررسی کنید که آیا هر ابزار واقعاً اجرا میشود یا خیر. سپس، مسیری را که عامل طی کرده است بررسی کنید. صرفاً اجرای یک ابزار کافی نیست. عامل باید از ابزار درست، با آرگومانهای درست و با ترتیب درست استفاده کند.
مرحله ۴: اجراهای نسخهبندی شده (Versioned runs) به هر اجرا یک شماره نسخه اختصاص دهید. تمام پاسخها را ذخیره کنید. هر پرامپت را چندین بار اجرا کنید تا اثر تصادفی بودن مدل (randomness) را در نظر بگیرید. نرخ موفقیت، هزینه، توکنها و تأخیر (latency) را ردیابی کنید. دقت، یک موازنه تجاری در برابر سرعت و قیمت است.
مرحله ۵: ذخیرهساز حقیقت مرجع (Ground truth store) پاسخهای تأیید شده را برای هر پرامپت نگه دارید. تصمیم بگیرید چه کسی میتواند این پاسخها را تغییر دهد. اگر با تغییر محصول خود، حقیقتهای مرجع (ground truths) را بهروزرسانی نکنید، تستهای شما به درستی با شکست مواجه خواهند شد.
مرحله ۶: ارزیاب (The evaluator) اجراها را بر اساس حقیقت مرجع خود امتیازدهی کنید. از یک داور LLM برای بررسی دقت و صحت استفاده کنید. مراقب سوگیری (bias) داور باشید. امتیازهای LLM را با برچسبهای انسانی مقایسه کنید تا از دقت آنها مطمئن شوید.
مرحله ۷: بازبینی انسانی (Human review) یک داشبورد برای موارد با امتیاز پایین ایجاد کنید. اجازه دهید انسانها خطاها را اصلاح کنند. از این اصلاحات انسانی برای آموزش داور LLM خود استفاده کنید.
مرحله ۸: یکپارچهسازی CI/CD تستهای مؤلفه را در هر Pull Request اجرا کنید. کل مجموعه تستها را هر شب اجرا کنید. آستانهای تعیین کنید که اگر امتیازها کاهش یافت، از استقرار (deployment) جلوگیری کند.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi
