ارزیابی عامل هوش مصنوعی خیلی زود تمام می‌شود

بسیاری از مردم فکر می‌کنند ارزیابی عامل هوش مصنوعی با عرضه (launch) تمام می‌شود. آن‌ها امتیاز بالایی در یک بنچمارک می‌بینند و تصور می‌کنند عامل آماده است. این یک اشتباه است.

امتیاز بالا اغلب فقط به این معناست که عامل از چند مورد خاص عبور کرده است. این به معنای آماده بودن عامل برای دنیای واقعی نیست.

بنچمارک‌های فعلی شکاف‌های عظیمی دارند. بررسی ۱۵ بنچمارک اصلی نشان داد که:

  • هیچ بنچمارکی ایمنی یا امنیت را در امتیازات خود لحاظ نکرده بود.
  • هیچ بنچمارکی کارایی هزینه را در نظر نگرفته بود.
  • ۱۳ مورد از ۱۵ مورد، تنها بر موفقیت یا شکست دوگانه (binary) تکیه داشتند.
  • هیچ‌کدام به ۵۰٪ آمادگی برای استقرار (deployment) نرسیدند.

تست کردنِ صرفاً خروجی نهایی خطرناک است. اگر یک عامل پاسخ درستی بدهد، موفقیت‌آمیز به نظر می‌رسد؛ اما مسیری که طی کرده ممکن است معیوب باشد.

یک عامل ممکن است:

  • از ابزارهای اشتباه برای رسیدن به پاسخ درست استفاده کند.
  • مراحل تأیید را به‌طور کامل نادیده بگیرد.
  • حقایق را توهم‌آمیز (hallucinate) بیان کند اما به نتیجه درستی برسد.
  • با تلاش‌های مجدد مداوم، بودجه شما را تمام کند.

اگر یک عامل پشتیبانی مشتری، درخواست بازپرداخت را برای حساب اشتباهی پردازش کند، خروجی درست به نظر می‌رسد، اما عامل شکست خورده است.

شما باید مسیر (trajectory) را امتیازدهی کنید، نه فقط پاسخ را.

ارزیابی واقعی باید این ابعاد را پوشش دهد:

  • صحت ابزار و پارامترها.
  • استناد (grounding) و دقت.
  • هزینه و تأخیر (latency).
  • سیاست‌گذاری و ایمنی.
  • بازیابی از خطاها.

ارزیابی را به عنوان یک گزارشِ عرضه نبینید؛ با آن به عنوان یک حلقه مداوم برخورد کنید.

روش بهتر برای کار:

  • ساخت بنچمارک‌های عمومی برای سنجش قابلیت‌ها.
  • اجرای تست‌های آفلاین قبل از انتشار.
  • نظارت بر ردپاهای (traces) محیط عملیاتی به صورت لحظه‌ای (real time).
  • ثبت فراخوانی‌های ابزار، آرگومان‌ها و تصمیمات میانی.
  • استفاده از ردپاهای شکست‌خورده در محیط عملیاتی برای بهبود مجموعه‌داده‌های آفلاین.

ارزیابی یک مسئله مشاهده‌پذیری (observability) است. یک عامل تنها زمانی موفق است که رفتار آن با اهداف تجاری، ابزارها و قصد کاربر شما همسو باقی بماند. این موارد هر روز تغییر می‌کنند.

فقط ردپاها را ذخیره نکنید؛ آن‌ها را ارزیابی کنید. ذخیره‌سازی ردپا بدون ارزیابی، صرفاً یک مسئله‌ی جستجو است. ارزیابی آفلاین بدون داده‌های محیط عملیاتی، چیزی جز نمایش (theater) نیست.

آخرین مرحله‌ی ارزیابی نباید یک امتیاز باشد. آخرین مرحله باید ردپای بعدی باشد.

Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

Optional learning community: https://t.me/GyaanSetuAi