ارزیابی عامل هوش مصنوعی خیلی زود تمام میشود
بسیاری از مردم فکر میکنند ارزیابی عامل هوش مصنوعی با عرضه (launch) تمام میشود. آنها امتیاز بالایی در یک بنچمارک میبینند و تصور میکنند عامل آماده است. این یک اشتباه است.
امتیاز بالا اغلب فقط به این معناست که عامل از چند مورد خاص عبور کرده است. این به معنای آماده بودن عامل برای دنیای واقعی نیست.
بنچمارکهای فعلی شکافهای عظیمی دارند. بررسی ۱۵ بنچمارک اصلی نشان داد که:
- هیچ بنچمارکی ایمنی یا امنیت را در امتیازات خود لحاظ نکرده بود.
- هیچ بنچمارکی کارایی هزینه را در نظر نگرفته بود.
- ۱۳ مورد از ۱۵ مورد، تنها بر موفقیت یا شکست دوگانه (binary) تکیه داشتند.
- هیچکدام به ۵۰٪ آمادگی برای استقرار (deployment) نرسیدند.
تست کردنِ صرفاً خروجی نهایی خطرناک است. اگر یک عامل پاسخ درستی بدهد، موفقیتآمیز به نظر میرسد؛ اما مسیری که طی کرده ممکن است معیوب باشد.
یک عامل ممکن است:
- از ابزارهای اشتباه برای رسیدن به پاسخ درست استفاده کند.
- مراحل تأیید را بهطور کامل نادیده بگیرد.
- حقایق را توهمآمیز (hallucinate) بیان کند اما به نتیجه درستی برسد.
- با تلاشهای مجدد مداوم، بودجه شما را تمام کند.
اگر یک عامل پشتیبانی مشتری، درخواست بازپرداخت را برای حساب اشتباهی پردازش کند، خروجی درست به نظر میرسد، اما عامل شکست خورده است.
شما باید مسیر (trajectory) را امتیازدهی کنید، نه فقط پاسخ را.
ارزیابی واقعی باید این ابعاد را پوشش دهد:
- صحت ابزار و پارامترها.
- استناد (grounding) و دقت.
- هزینه و تأخیر (latency).
- سیاستگذاری و ایمنی.
- بازیابی از خطاها.
ارزیابی را به عنوان یک گزارشِ عرضه نبینید؛ با آن به عنوان یک حلقه مداوم برخورد کنید.
روش بهتر برای کار:
- ساخت بنچمارکهای عمومی برای سنجش قابلیتها.
- اجرای تستهای آفلاین قبل از انتشار.
- نظارت بر ردپاهای (traces) محیط عملیاتی به صورت لحظهای (real time).
- ثبت فراخوانیهای ابزار، آرگومانها و تصمیمات میانی.
- استفاده از ردپاهای شکستخورده در محیط عملیاتی برای بهبود مجموعهدادههای آفلاین.
ارزیابی یک مسئله مشاهدهپذیری (observability) است. یک عامل تنها زمانی موفق است که رفتار آن با اهداف تجاری، ابزارها و قصد کاربر شما همسو باقی بماند. این موارد هر روز تغییر میکنند.
فقط ردپاها را ذخیره نکنید؛ آنها را ارزیابی کنید. ذخیرهسازی ردپا بدون ارزیابی، صرفاً یک مسئلهی جستجو است. ارزیابی آفلاین بدون دادههای محیط عملیاتی، چیزی جز نمایش (theater) نیست.
آخرین مرحلهی ارزیابی نباید یک امتیاز باشد. آخرین مرحله باید ردپای بعدی باشد.
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
