𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

📅3 hours ago⏱2 min read

LLM ബെഞ്ച്മാർക്കുകൾ കള്ളം പറയുന്നു

ലീഡർബോർഡ് സ്കോറുകൾ പലപ്പോഴും നിങ്ങളെ തെറ്റിദ്ധരിപ്പിച്ചേക്കാം.

കഴിഞ്ഞ മാസം ഞാൻ ഒരു ഏജന്റിക് പൈപ്പ്‌ലൈനായി (agentic pipeline) മോഡലുകൾ പരീക്ഷിച്ചു. ഒരു പ്രശസ്തമായ ലീഡർബോർഡിലെ ഏറ്റവും മികച്ച മോഡൽ ഞാൻ തിരഞ്ഞെടുത്തു. അത് ഉപയോഗിച്ച് ഞാൻ പ്രോജക്റ്റ് പുറത്തിറക്കി. എന്നാൽ അടിസ്ഥാനപരമായ ടൂൾ ഉപയോഗനീയമായ (tool-use) ജോലികളിൽ അത് ഉടൻ തന്നെ പരാജയപ്പെട്ടു.

ആ സ്കോർ ശരിയായിരുന്നു. എന്നാൽ എന്റെ ആവശ്യങ്ങൾക്ക് ആ സ്കോർ ഒന്നിനും കൊള്ളാത്തതായിരുന്നു.

മിക്ക പൊതുവായ ബെഞ്ച്മാർക്കുകളും മോഡലുകളെ ഒറ്റപ്പെട്ട രീതിയിലാണ് പരീക്ഷിക്കുന്നത്. എന്നാൽ പ്രൊഡക്ഷനിൽ നിങ്ങൾ ഏജന്റുകളെയാണ് (agents) പ്രവർത്തിപ്പിക്കുന്നത്. ഈ ഏജന്റുകൾ ടൂളുകൾ വിളിക്കുന്നു (call tools), വെബ് സെർച്ച് ചെയ്യുന്നു, കോഡ് പ്രവർത്തിപ്പിക്കുന്നു. സാധാരണ ബെഞ്ച്മാർക്കുകൾ ഇത് അളക്കുന്നില്ല.

2026 ഫെബ്രുവരിയിലെ LXT റിപ്പോർട്ട് ഡാറ്റ പ്രകാരം, ടൂൾ ആക്സസ് (tool access) ലഭ്യമാക്കുമ്പോൾ വലിയൊരു വ്യത്യാസം കാണാം:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

ടൂൾ ആക്സസ് ഇല്ലാതെ ഈ സ്കോറുകൾ കുറയുന്നു. ടൂൾ സഹായത്തോടെയുള്ളതും ഇല്ലാത്തതുമായ സ്കോറുകൾ തമ്മിലുള്ള വ്യത്യാസമാണ് ഏജന്റുകളെ സംബന്ധിച്ചിടത്തോളം പ്രധാനപ്പെട്ട ഏക അളവുകോൽ.

BenchLM.ai ഇത് സ്ഥിരീകരിക്കുന്നു. ട്രിവിയ (trivia) അല്ലെങ്കിൽ MMLU പോലുള്ള സ്റ്റാറ്റിക് ടെസ്റ്റുകളിൽ വിജയിക്കുന്ന മോഡലുകൾ പലപ്പോഴും ഒരു ഫംഗ്ഷൻ കോൾ (function call) എഴുതുന്നതിൽ പോലും പരാജയപ്പെടുന്നു.

നിങ്ങൾക്ക് ഒരു ഇമെയിൽ എഴുതണമെന്നുണ്ടെങ്കിൽ സാധാരണ ബെഞ്ച്മാർക്ക് മതിയാകും. എന്നാൽ നിങ്ങൾ ഒരു ഏജന്റ് നിർമ്മിക്കുകയാണെങ്കിൽ, ഈ മൂന്ന് കാര്യങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുക:

ടൂൾ കോൾ വിശ്വാസ്യത (Tool call reliability). സമ്മർദ്ദഘട്ടങ്ങളിൽ മോഡലിന് കോളുകൾ കൃത്യമായി ഫോർമാറ്റ് ചെയ്യാൻ കഴിയുമോ? പിശകുകളിൽ നിന്ന് അതിന് തിരിച്ചു വരാൻ കഴിയുമോ?
കോൺടെക്സ്റ്റ് വിൻഡോ ചെലവുകൾ (Context window costs). MCP സെർവറുകൾ ഉപയോഗിക്കുന്നത് കൂടുതൽ ടോക്കണുകൾ (tokens) ചെലവാക്കുന്നു. ഓരോ ടൂൾ കോളിനും ടോക്കണുകൾ പാഴാകുന്നുണ്ടെങ്കിൽ വലിയൊരു കോൺടെക്സ്റ്റ് വിൻഡോ ഒരു ഭാരമായി മാറും.
പ്ലാനിംഗ് കൃത്യത (Planning fidelity). ഒരു 5-ഘട്ട പ്ലാൻ പിന്തുടരാൻ മോഡലിന് കഴിയുമോ? മിക്ക മോഡലുകളും മൂന്നാം ഘട്ടത്തോടെ വഴിതെറ്റുന്നു.

പൊതുവായ ലീഡർബോർഡുകളെ മാത്രം നിങ്ങളുടെ വഴികാട്ടിയായി ഉപയോഗിക്കുന്നത് നിർത്തുക. പകരം ഇത് ചെയ്യുക:

• ഒരു മിനി-ബെഞ്ച്മാർക്ക് നടത്തുക. നിങ്ങളുടെ സ്വന്തം ലോഗുകളിൽ നിന്നുള്ള 20 മുതൽ 50 വരെയുള്ള യഥാർത്ഥ ടൂൾ കോളുകൾ ഉപയോഗിക്കുക. നിങ്ങളുടെ പ്രത്യേക സ്കീമയിലെ (schema) കൃത്യത അളക്കുക.

• എറർ കണ്ടീഷനുകൾ (error conditions) പരിശോധിക്കുക. ഒരു ടൂൾ ശൂന്യമായ ഫലമോ അല്ലെങ്കിൽ ഒരു എററോ നൽകുമ്പോൾ മോഡൽ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്ന് നോക്കുക.

• ഓരോ ടാസ്കിനും വരുന്ന ചെലവ് അളക്കുക. 5% മികച്ചതും എന്നാൽ 3 മടങ്ങ് കൂടുതൽ ചെലവുള്ളതുമായ ഒരു മോഡൽ പലപ്പോഴും തെറ്റായ തിരഞ്ഞെടുപ്പായിരിക്കും.

• പ്രത്യേക ലീഡർബോർഡുകൾ ഉപയോഗിക്കുക. ടൂൾ ഉപയോഗനീയതയുടെ (tool-use) സ്കോറുകൾക്കായി പ്രത്യേകിച്ച് LLM-stats.com അല്ലെങ്കിൽ BenchLM.ai പരിശോധിക്കുക.

നിങ്ങളുടെ സ്വന്തം ഡാറ്റ പരീക്ഷിക്കാൻ ഒരു ഉച്ചതിരിഞ്ഞ സമയം ചെലവഴിക്കുക. പേപ്പറിൽ മാത്രം മികച്ചതായി തോന്നുന്ന ഒരു മോഡലിനെ ഡീബഗ് (debug) ചെയ്യുന്നതിലെ ഒരാഴ്ചത്തെ കഷ്ടപ്പാട് അത് ഒഴിവാക്കും.

നിങ്ങൾ എങ്ങനെയാണ് നിങ്ങളുടെ മോഡലുകളെ വിലയിരുത്തുന്നത്? മറുപടികളിലൂടെ എന്നെ അറിയിക്കുക.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

ഏറ്റവും ശക്തമായ മോഡലിനെക്കുറിച്ചുള്ള മിഥ്യ

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁