دروغِ بنچمارک‌های LLM

امتیازات جدول رده‌بندی (Leaderboard) اغلب به شما دروغ می‌گویند.

ماه گذشته، مدل‌هایی را برای یک خط لوله عامل‌محور (agentic pipeline) آزمایش کردم. من برترین مدل در یک جدول رده‌بندی محبوب را انتخاب کردم. آن را عرضه کردم، اما بلافاصله در وظایف پایه استفاده از ابزار (tool-use) شکست خورد.

امتیاز واقعی بود، اما برای نیازهای من بی‌فایده بود.

اکثر بنچمارک‌های عمومی، مدل‌ها را در حالت ایزوله آزمایش می‌کنند. در محیط عملیاتی، شما «عامل‌ها» (agents) را اجرا می‌کنید. این عامل‌ها ابزارها را فراخوانی می‌کنند، در وب جستجو می‌کنند و کد اجرا می‌کنند. بنچمارک‌های استاندارد این موارد را اندازه‌گیری نمی‌کنند.

داده‌های گزارش LXT از فوریه ۲۰۲۶ نشان‌دهنده شکافی عظیم در صورت فعال بودن دسترسی به ابزار است:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

بدون دسترسی به ابزار، این امتیازات کاهش می‌یابند. شکاف بین امتیازات با کمک ابزار و بدون ابزار، تنها معیاری است که برای عامل‌ها اهمیت دارد.

سایت BenchLM.ai این موضوع را تأیید می‌کند. مدل‌هایی که در آزمون‌های اطلاعات عمومی (trivia) یا تست‌های ایستا مانند MMLU برنده می‌شوند، اغلب در نوشتن حتی یک فراخوانی تابع (function call) شکست می‌خورند.

اگر نیاز به نوشتن یک ایمیل دارید، یک بنچمارک استاندارد پاسخگو است. اما اگر در حال ساخت یک عامل هستید، روی این سه مورد تمرکز کنید:

  1. قابلیت اطمینان فراخوانی ابزار. آیا مدل می‌تواند فراخوانی‌ها را تحت فشار به‌درستی قالب‌بندی کند؟ آیا می‌تواند از خطاها بازیابی شود؟

  2. هزینه‌های پنجره بافت (Context window). استفاده از سرورهای MCP هزینه توکن بسیار بیشتری دارد. اگر در هر فراخوانی ابزار، توکن‌های زیادی مصرف کنید، داشتن یک پنجره بافت بزرگ تبدیل به یک بار اضافی می‌شود.

  3. دقت برنامه‌ریزی (Planning fidelity). آیا مدل می‌تواند یک برنامه ۵ مرحله‌ای را دنبال کند؟ اکثر مدل‌ها در مرحله سوم رشته کلام را از دست می‌دهند.

از استفاده از جدول‌های رده‌بندی عمومی به عنوان تنها راهنمای خود دست بردارید. در عوض، این کارها را انجام دهید:

• یک بنچمارک کوچک اجرا کنید. از ۲۰ تا ۵۰ فراخوانی واقعی ابزار از لاگ‌های خودتان استفاده کنید. دقت را بر اساس طرحواره (schema) اختصاصی خود بسنجید.

• شرایط خطا را آزمایش کنید. ببینید وقتی یک ابزار نتیجه‌ای خالی یا یک خطا برمی‌گرداند، مدل چه واکنشی نشان می‌دهد.

• هزینه هر وظیفه را اندازه‌گیری کنید. مدلی که ۵٪ بهتر است اما ۳ برابر گران‌تر است، اغلب انتخاب اشتباهی است.

• از جدول‌های رده‌بندی تخصصی استفاده کنید. برای امتیازات مربوط به استفاده از ابزار، به LLM-stats.com یا BenchLM.ai مراجعه کنید.

یک بعدازظهر را صرف آزمایش داده‌های خود کنید. این کار شما را از یک هفته عیب‌یابی (debugging) مدلی که فقط روی کاغذ خوب به نظر می‌رسید، نجات می‌دهد.

شما چگونه مدل‌های خود را ارزیابی می‌کنید؟ در بخش نظرات به من بگویید.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

Optional learning community: https://t.me/GyaanSetuAi