𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

📅4 hours ago⏱2 min read

ציון ה-LLM Benchmark שאתה באמת צריך לא קיים

רוב לוחות המובילים (leaderboards) של LLM משקרים לך.

בחודש שעבר הערכתי מודלים עבור agentic pipeline. נזקקתי ליצירת קוד ולחשיבה רב-שלבית (multi-step reasoning). בחרתי במודל המוביל בלוח מובילים פופולרי. הטמעתי אותו. הוא נכשל במשימות בסיסיות של שימוש בכלים (tool-use).

הציון בלוח המובילים היה אמיתי. הוא גם היה חסר תועלת לעבודה שלי.

מבחני ביצועים (benchmarks) ציבוריים בודקים מודלים בבידוד. בסביבת ייצור (production), אתם מריצים סוכנים (agents). סוכנים קוראים לכלים, מחפשים באינטרנט ומריצים קוד. מבחני ביצועים סטנדרטיים לא מודדים את זה.

דוחות LXT מראים פער עצום. בפברואר 2026, עם גישה לכלים, הציונים נראו כך:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

ללא גישה לכלים, הציונים הללו צונחים. הפער בין ציונים עם סיוע של כלים לבין ציונים ללא כלים הוא המדד היחיד שחשוב עבור סוכנים.

מודלים שמנצחים במבחני טריוויה או במבחנים סטטיים נכשלים לעיתים קרובות בכתיבת קריאה בודדת לפונקציה (function call).

אם אתם בונים סוכנים, התמקדו בשלושת התחומים הללו:

אמינות קריאות לכלים (Tool call reliability). האם המודל מעצב קריאות בצורה נכונה תחת הסחות דעת? האם הוא יכול להתאושש משגיאות?
כלכלת חלון ההקשר (Context window economics). הגדרות כלים מסוימות עולות פי 10 עד פי 32 יותר טוקנים. חלון הקשר גדול הוא בזבוז אם הוא שורף את התקציב שלכם בכל קריאה.
תכנון רב-שלבי (Multi-step planning). האם המודל יכול להחזיק בתוכנית בת 5 שלבים? מודלים רבים מאבדים את הרצף כבר בשלב השלישי.

הפסיקו להשתמש בלוחות מובילים ציבוריים כמדריך היחיד שלכם. עשו זאת במקום:

• הריצו mini-benchmark. השתמשו ב-20 עד 50 קריאות כלים אמיתיות מהלוגים שלכם. מדדו את הדיוק על סכימה (schema) ספציפית שלכם. • בדקו תנאי שגיאה. ראו כיצד המודל פועל כאשר כלי מחזיר שגיאה או נתונים ריקים. • מדדו עלות לכל משימה. מודל שהוא טוב ב-5% אך יקר פי 3 הוא לרוב הבחירה הלא נכונה. • השתמשו בלוחות מובילים ייעודיים. חפשו ציונים של שימוש בכלים וסוכני קוד ב-BenchLM.ai במקום בדירוגים כלליים.

מודל המדורג במקום ה-3 עשוי להיות מושלם עבור פרומפט בודד. הוא עשוי להיות אסון עבור סוכן.

הקדישו אחר צהריים אחד לבדיקת הכלים שלכם. זה יחסוך לכם שבוע של debugging מאוחר יותר.

איך אתם מעריכים את המודלים שלכם? ספרו לי בתגובות.

מקור: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

המיתוס של המודל החזק ביותר

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲