دروغِ بنچمارکهای LLM
امتیازات جدول ردهبندی (Leaderboard) اغلب به شما دروغ میگویند.
ماه گذشته، مدلهایی را برای یک خط لوله عاملمحور (agentic pipeline) آزمایش کردم. من برترین مدل در یک جدول ردهبندی محبوب را انتخاب کردم. آن را عرضه کردم، اما بلافاصله در وظایف پایه استفاده از ابزار (tool-use) شکست خورد.
امتیاز واقعی بود، اما برای نیازهای من بیفایده بود.
اکثر بنچمارکهای عمومی، مدلها را در حالت ایزوله آزمایش میکنند. در محیط عملیاتی، شما «عاملها» (agents) را اجرا میکنید. این عاملها ابزارها را فراخوانی میکنند، در وب جستجو میکنند و کد اجرا میکنند. بنچمارکهای استاندارد این موارد را اندازهگیری نمیکنند.
دادههای گزارش LXT از فوریه ۲۰۲۶ نشاندهنده شکافی عظیم در صورت فعال بودن دسترسی به ابزار است:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
بدون دسترسی به ابزار، این امتیازات کاهش مییابند. شکاف بین امتیازات با کمک ابزار و بدون ابزار، تنها معیاری است که برای عاملها اهمیت دارد.
سایت BenchLM.ai این موضوع را تأیید میکند. مدلهایی که در آزمونهای اطلاعات عمومی (trivia) یا تستهای ایستا مانند MMLU برنده میشوند، اغلب در نوشتن حتی یک فراخوانی تابع (function call) شکست میخورند.
اگر نیاز به نوشتن یک ایمیل دارید، یک بنچمارک استاندارد پاسخگو است. اما اگر در حال ساخت یک عامل هستید، روی این سه مورد تمرکز کنید:
قابلیت اطمینان فراخوانی ابزار. آیا مدل میتواند فراخوانیها را تحت فشار بهدرستی قالببندی کند؟ آیا میتواند از خطاها بازیابی شود؟
هزینههای پنجره بافت (Context window). استفاده از سرورهای MCP هزینه توکن بسیار بیشتری دارد. اگر در هر فراخوانی ابزار، توکنهای زیادی مصرف کنید، داشتن یک پنجره بافت بزرگ تبدیل به یک بار اضافی میشود.
دقت برنامهریزی (Planning fidelity). آیا مدل میتواند یک برنامه ۵ مرحلهای را دنبال کند؟ اکثر مدلها در مرحله سوم رشته کلام را از دست میدهند.
از استفاده از جدولهای ردهبندی عمومی به عنوان تنها راهنمای خود دست بردارید. در عوض، این کارها را انجام دهید:
• یک بنچمارک کوچک اجرا کنید. از ۲۰ تا ۵۰ فراخوانی واقعی ابزار از لاگهای خودتان استفاده کنید. دقت را بر اساس طرحواره (schema) اختصاصی خود بسنجید.
• شرایط خطا را آزمایش کنید. ببینید وقتی یک ابزار نتیجهای خالی یا یک خطا برمیگرداند، مدل چه واکنشی نشان میدهد.
• هزینه هر وظیفه را اندازهگیری کنید. مدلی که ۵٪ بهتر است اما ۳ برابر گرانتر است، اغلب انتخاب اشتباهی است.
• از جدولهای ردهبندی تخصصی استفاده کنید. برای امتیازات مربوط به استفاده از ابزار، به LLM-stats.com یا BenchLM.ai مراجعه کنید.
یک بعدازظهر را صرف آزمایش دادههای خود کنید. این کار شما را از یک هفته عیبیابی (debugging) مدلی که فقط روی کاغذ خوب به نظر میرسید، نجات میدهد.
شما چگونه مدلهای خود را ارزیابی میکنید؟ در بخش نظرات به من بگویید.
Optional learning community: https://t.me/GyaanSetuAi