LLM ബെഞ്ച്മാർക്കുകൾ കള്ളം പറയുന്നു
ലീഡർബോർഡ് സ്കോറുകൾ പലപ്പോഴും നിങ്ങളെ തെറ്റിദ്ധരിപ്പിച്ചേക്കാം.
കഴിഞ്ഞ മാസം ഞാൻ ഒരു ഏജന്റിക് പൈപ്പ്ലൈനായി (agentic pipeline) മോഡലുകൾ പരീക്ഷിച്ചു. ഒരു പ്രശസ്തമായ ലീഡർബോർഡിലെ ഏറ്റവും മികച്ച മോഡൽ ഞാൻ തിരഞ്ഞെടുത്തു. അത് ഉപയോഗിച്ച് ഞാൻ പ്രോജക്റ്റ് പുറത്തിറക്കി. എന്നാൽ അടിസ്ഥാനപരമായ ടൂൾ ഉപയോഗനീയമായ (tool-use) ജോലികളിൽ അത് ഉടൻ തന്നെ പരാജയപ്പെട്ടു.
ആ സ്കോർ ശരിയായിരുന്നു. എന്നാൽ എന്റെ ആവശ്യങ്ങൾക്ക് ആ സ്കോർ ഒന്നിനും കൊള്ളാത്തതായിരുന്നു.
മിക്ക പൊതുവായ ബെഞ്ച്മാർക്കുകളും മോഡലുകളെ ഒറ്റപ്പെട്ട രീതിയിലാണ് പരീക്ഷിക്കുന്നത്. എന്നാൽ പ്രൊഡക്ഷനിൽ നിങ്ങൾ ഏജന്റുകളെയാണ് (agents) പ്രവർത്തിപ്പിക്കുന്നത്. ഈ ഏജന്റുകൾ ടൂളുകൾ വിളിക്കുന്നു (call tools), വെബ് സെർച്ച് ചെയ്യുന്നു, കോഡ് പ്രവർത്തിപ്പിക്കുന്നു. സാധാരണ ബെഞ്ച്മാർക്കുകൾ ഇത് അളക്കുന്നില്ല.
2026 ഫെബ്രുവരിയിലെ LXT റിപ്പോർട്ട് ഡാറ്റ പ്രകാരം, ടൂൾ ആക്സസ് (tool access) ലഭ്യമാക്കുമ്പോൾ വലിയൊരു വ്യത്യാസം കാണാം:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
ടൂൾ ആക്സസ് ഇല്ലാതെ ഈ സ്കോറുകൾ കുറയുന്നു. ടൂൾ സഹായത്തോടെയുള്ളതും ഇല്ലാത്തതുമായ സ്കോറുകൾ തമ്മിലുള്ള വ്യത്യാസമാണ് ഏജന്റുകളെ സംബന്ധിച്ചിടത്തോളം പ്രധാനപ്പെട്ട ഏക അളവുകോൽ.
BenchLM.ai ഇത് സ്ഥിരീകരിക്കുന്നു. ട്രിവിയ (trivia) അല്ലെങ്കിൽ MMLU പോലുള്ള സ്റ്റാറ്റിക് ടെസ്റ്റുകളിൽ വിജയിക്കുന്ന മോഡലുകൾ പലപ്പോഴും ഒരു ഫംഗ്ഷൻ കോൾ (function call) എഴുതുന്നതിൽ പോലും പരാജയപ്പെടുന്നു.
നിങ്ങൾക്ക് ഒരു ഇമെയിൽ എഴുതണമെന്നുണ്ടെങ്കിൽ സാധാരണ ബെഞ്ച്മാർക്ക് മതിയാകും. എന്നാൽ നിങ്ങൾ ഒരു ഏജന്റ് നിർമ്മിക്കുകയാണെങ്കിൽ, ഈ മൂന്ന് കാര്യങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുക:
ടൂൾ കോൾ വിശ്വാസ്യത (Tool call reliability). സമ്മർദ്ദഘട്ടങ്ങളിൽ മോഡലിന് കോളുകൾ കൃത്യമായി ഫോർമാറ്റ് ചെയ്യാൻ കഴിയുമോ? പിശകുകളിൽ നിന്ന് അതിന് തിരിച്ചു വരാൻ കഴിയുമോ?
കോൺടെക്സ്റ്റ് വിൻഡോ ചെലവുകൾ (Context window costs). MCP സെർവറുകൾ ഉപയോഗിക്കുന്നത് കൂടുതൽ ടോക്കണുകൾ (tokens) ചെലവാക്കുന്നു. ഓരോ ടൂൾ കോളിനും ടോക്കണുകൾ പാഴാകുന്നുണ്ടെങ്കിൽ വലിയൊരു കോൺടെക്സ്റ്റ് വിൻഡോ ഒരു ഭാരമായി മാറും.
പ്ലാനിംഗ് കൃത്യത (Planning fidelity). ഒരു 5-ഘട്ട പ്ലാൻ പിന്തുടരാൻ മോഡലിന് കഴിയുമോ? മിക്ക മോഡലുകളും മൂന്നാം ഘട്ടത്തോടെ വഴിതെറ്റുന്നു.
പൊതുവായ ലീഡർബോർഡുകളെ മാത്രം നിങ്ങളുടെ വഴികാട്ടിയായി ഉപയോഗിക്കുന്നത് നിർത്തുക. പകരം ഇത് ചെയ്യുക:
• ഒരു മിനി-ബെഞ്ച്മാർക്ക് നടത്തുക. നിങ്ങളുടെ സ്വന്തം ലോഗുകളിൽ നിന്നുള്ള 20 മുതൽ 50 വരെയുള്ള യഥാർത്ഥ ടൂൾ കോളുകൾ ഉപയോഗിക്കുക. നിങ്ങളുടെ പ്രത്യേക സ്കീമയിലെ (schema) കൃത്യത അളക്കുക.
• എറർ കണ്ടീഷനുകൾ (error conditions) പരിശോധിക്കുക. ഒരു ടൂൾ ശൂന്യമായ ഫലമോ അല്ലെങ്കിൽ ഒരു എററോ നൽകുമ്പോൾ മോഡൽ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്ന് നോക്കുക.
• ഓരോ ടാസ്കിനും വരുന്ന ചെലവ് അളക്കുക. 5% മികച്ചതും എന്നാൽ 3 മടങ്ങ് കൂടുതൽ ചെലവുള്ളതുമായ ഒരു മോഡൽ പലപ്പോഴും തെറ്റായ തിരഞ്ഞെടുപ്പായിരിക്കും.
• പ്രത്യേക ലീഡർബോർഡുകൾ ഉപയോഗിക്കുക. ടൂൾ ഉപയോഗനീയതയുടെ (tool-use) സ്കോറുകൾക്കായി പ്രത്യേകിച്ച് LLM-stats.com അല്ലെങ്കിൽ BenchLM.ai പരിശോധിക്കുക.
നിങ്ങളുടെ സ്വന്തം ഡാറ്റ പരീക്ഷിക്കാൻ ഒരു ഉച്ചതിരിഞ്ഞ സമയം ചെലവഴിക്കുക. പേപ്പറിൽ മാത്രം മികച്ചതായി തോന്നുന്ന ഒരു മോഡലിനെ ഡീബഗ് (debug) ചെയ്യുന്നതിലെ ഒരാഴ്ചത്തെ കഷ്ടപ്പാട് അത് ഒഴിവാക്കും.
നിങ്ങൾ എങ്ങനെയാണ് നിങ്ങളുടെ മോഡലുകളെ വിലയിരുത്തുന്നത്? മറുപടികളിലൂടെ എന്നെ അറിയിക്കുക.
Optional learning community: https://t.me/GyaanSetuAi