ارزیابی هوش مصنوعی عاملمحور در عصر بنچمارکهای LLM
اکثر آزمونهای هوش مصنوعی از الگوی سادهای پیروی میکنند. شما یک پرامپت به مدل میدهید، پاسخ را با یک مرجع مقایسه میکنید و به نتیجه امتیاز میدهید.
این روش برای خلاصهسازی و طبقهبندی جواب میدهد، اما زمانی که مدل باید در یک محیط در حال تغییر عمل کند، شکست میخورد.
مقاله Age of LLM روش بهتری را معرفی میکند. این روش یک بازی یکبهیک روی یک شبکه (grid) است. دو مدل در شرایط «مه جنگ» (fog of war) با هم رقابت میکنند. آنها نمیتوانند همه چیز را ببینند؛ بنابراین باید برای یافتن واحدهای دشمن، شناسایی یا حدس بزنند. آنها باید از دیپلماسی برای پیشنهاد معامله یا اولتیماتوم استفاده کنند.
هر حرکت باید از یک طرحواره (schema) دقیق JSON پیروی کند. اگر حرکتی غیرمجاز باشد، سیستم آن را رد میکند.
این آزمون مهارتهای خاصی را اندازهگیری میکند:
- ردیابی وضعیت (State tracking): آیا مدل آنچه را که دیده و آنچه را که از دست داده، به خاطر میسپارد؟
- مدیریت باور (Belief management): آیا با اطلاعات ناقص، منطقی عمل میکند؟
- اعتبار عمل (Action validity): آیا از قوانین محیط پیروی میکند؟
- استراتژی بلندمدت (Long-horizon strategy): آیا میتواند توالی حرکاتی را انتخاب کند که به یک هدف ختم شود؟
یک مدل ممکن است روان به نظر برسد اما در عمل شکست بخورد. ممکن است وضعیت خود را فراموش کند یا فراخوانیهای ابزار (tool calls) نامعتبر ارائه دهد.
نتایج یک الگو را نشان میدهند. بسیاری از مدلها در شرایط عدم قطعیت در تلههای ساده میافتند. اکثر آنها حرکات نظامی تهاجمی را انتخاب کردند. دیپلماسی صورت گرفت، اما توافقات به ندرت به نتیجه رسیدند. بسیاری از خطاها ناشی از ردیابی ضعیف وضعیت بود.
بنچمارکهای استاندارد این شکستها را نادیده میگیرند. یک مدل میتواند توضیح بسیار خوبی بنویسد اما در ردیابی یک واحد پنهان شکست بخورد. شما تنها زمانی متوجه این موضوع میشوید که محیط مدل را مجبور به عمل کردن کند.
کارهای فعلی در حوزه هوش مصنوعی اغلب بر استفاده از ابزار (tool use) تمرکز دارند. استفاده از ابزار ضروری است، اما کافی نیست. یک عامل (agent) واقعی باید با تغییر شرایط، بافتار (context) را حفظ کرده و خود را بازیابی کند.
صنعت در حال تغییر جهت از «کیفیت چت» به سمت «نتایج» است. سیستمهای مفید بر اساس اینکه آیا کار را به پایان میرسانند یا خیر سنجیده میشوند، نه بر اساس اینکه چقدر نثر صیقلخورده تولید میکنند.
اگر یک عامل نتواند وضعیت باور (belief state) خود را حفظ کند، استراتژیک نیست. اگر نتواند از یک طرحواره (schema) پیروی کند، استفادهاش از ابزار شکننده است.
قابلیت واقعی عاملمحور به دو چیز نیاز دارد:
- توانایی برنامهریزی.
- توانایی اجرا در شرایط عدم قطعیت.
در نرمافزار، خروجی بد یک باگ است. در عاملهای هوش مصنوعی، خروجی بد اغلب یک شکست خاموش است. یک فراخوانی ابزار هیچ کاری انجام نمیدهد. یک فرض پنهان اشتباه است. اگر فقط به پاسخ نهایی امتیاز دهید، مشکل را نادیده گرفتهاید.
ما باید این موارد را آزمایش کنیم:
- مشاهدهپذیری جزئی (Partial observability)
- وضعیت پنهان (Hidden state)
- هماهنگی بلندمدت (Long-horizon coordination)
- اعتبار عمل (Action validity)
- بازیابی از اشتباهات (Recovery from mistakes)
ارزیابی باید به نحوه عملکرد این سیستمها در دنیای واقعی نزدیکتر شود.
Optional learning community: https://t.me/GyaanSetuAi
