ارزیابی هوش مصنوعی عامل‌محور در عصر بنچمارک‌های LLM

اکثر آزمون‌های هوش مصنوعی از الگوی ساده‌ای پیروی می‌کنند. شما یک پرامپت به مدل می‌دهید، پاسخ را با یک مرجع مقایسه می‌کنید و به نتیجه امتیاز می‌دهید.

این روش برای خلاصه‌سازی و طبقه‌بندی جواب می‌دهد، اما زمانی که مدل باید در یک محیط در حال تغییر عمل کند، شکست می‌خورد.

مقاله Age of LLM روش بهتری را معرفی می‌کند. این روش یک بازی یک‌به‌یک روی یک شبکه (grid) است. دو مدل در شرایط «مه جنگ» (fog of war) با هم رقابت می‌کنند. آن‌ها نمی‌توانند همه چیز را ببینند؛ بنابراین باید برای یافتن واحدهای دشمن، شناسایی یا حدس بزنند. آن‌ها باید از دیپلماسی برای پیشنهاد معامله یا اولتیماتوم استفاده کنند.

هر حرکت باید از یک طرحواره (schema) دقیق JSON پیروی کند. اگر حرکتی غیرمجاز باشد، سیستم آن را رد می‌کند.

این آزمون مهارت‌های خاصی را اندازه‌گیری می‌کند:

  • ردیابی وضعیت (State tracking): آیا مدل آنچه را که دیده و آنچه را که از دست داده، به خاطر می‌سپارد؟
  • مدیریت باور (Belief management): آیا با اطلاعات ناقص، منطقی عمل می‌کند؟
  • اعتبار عمل (Action validity): آیا از قوانین محیط پیروی می‌کند؟
  • استراتژی بلندمدت (Long-horizon strategy): آیا می‌تواند توالی حرکاتی را انتخاب کند که به یک هدف ختم شود؟

یک مدل ممکن است روان به نظر برسد اما در عمل شکست بخورد. ممکن است وضعیت خود را فراموش کند یا فراخوانی‌های ابزار (tool calls) نامعتبر ارائه دهد.

نتایج یک الگو را نشان می‌دهند. بسیاری از مدل‌ها در شرایط عدم قطعیت در تله‌های ساده می‌افتند. اکثر آن‌ها حرکات نظامی تهاجمی را انتخاب کردند. دیپلماسی صورت گرفت، اما توافقات به ندرت به نتیجه رسیدند. بسیاری از خطاها ناشی از ردیابی ضعیف وضعیت بود.

بنچمارک‌های استاندارد این شکست‌ها را نادیده می‌گیرند. یک مدل می‌تواند توضیح بسیار خوبی بنویسد اما در ردیابی یک واحد پنهان شکست بخورد. شما تنها زمانی متوجه این موضوع می‌شوید که محیط مدل را مجبور به عمل کردن کند.

کارهای فعلی در حوزه هوش مصنوعی اغلب بر استفاده از ابزار (tool use) تمرکز دارند. استفاده از ابزار ضروری است، اما کافی نیست. یک عامل (agent) واقعی باید با تغییر شرایط، بافتار (context) را حفظ کرده و خود را بازیابی کند.

صنعت در حال تغییر جهت از «کیفیت چت» به سمت «نتایج» است. سیستم‌های مفید بر اساس اینکه آیا کار را به پایان می‌رسانند یا خیر سنجیده می‌شوند، نه بر اساس اینکه چقدر نثر صیقل‌خورده تولید می‌کنند.

اگر یک عامل نتواند وضعیت باور (belief state) خود را حفظ کند، استراتژیک نیست. اگر نتواند از یک طرحواره (schema) پیروی کند، استفاده‌اش از ابزار شکننده است.

قابلیت واقعی عامل‌محور به دو چیز نیاز دارد:

  1. توانایی برنامه‌ریزی.
  2. توانایی اجرا در شرایط عدم قطعیت.

در نرم‌افزار، خروجی بد یک باگ است. در عامل‌های هوش مصنوعی، خروجی بد اغلب یک شکست خاموش است. یک فراخوانی ابزار هیچ کاری انجام نمی‌دهد. یک فرض پنهان اشتباه است. اگر فقط به پاسخ نهایی امتیاز دهید، مشکل را نادیده گرفته‌اید.

ما باید این موارد را آزمایش کنیم:

  • مشاهده‌پذیری جزئی (Partial observability)
  • وضعیت پنهان (Hidden state)
  • هماهنگی بلندمدت (Long-horizon coordination)
  • اعتبار عمل (Action validity)
  • بازیابی از اشتباهات (Recovery from mistakes)

ارزیابی باید به نحوه عملکرد این سیستم‌ها در دنیای واقعی نزدیک‌تر شود.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi