உங்களுக்குத் தேவையான LLM பெஞ்ச்மார்க் மதிப்பெண் இல்லை

பெரும்பாலான LLM லீடர்போர்டுகள் உங்களுக்குப் பொய் சொல்கின்றன.

கடந்த மாதம் ஒரு ஏஜென்டிக் பைப்புலைனுக்காக (agentic pipeline) நான் மாடல்களை மதிப்பீடு செய்தேன். எனக்கு கோட் உருவாக்கம் (code generation) மற்றும் பல படிநிலைகளைக் கொண்ட தர்க்கரீதியான சிந்தனை (multi-step reasoning) தேவைப்பட்டது. ஒரு பிரபலமான லீடர்போர்டில் முதலிடத்தில் இருந்த மாடலைத் தேர்ந்தெடுத்தேன். அதைச் செயல்படுத்தினேன். ஆனால், அது அடிப்படை கருவிப் பயன்பாட்டு (tool-use) பணிகளில் தோல்வியடைந்தது.

லீடர்போர்டு மதிப்பெண் உண்மையானதுதான். ஆனால் அது எனது வேலைக்குத் தேவையில்லாத ஒன்றாக இருந்தது.

பொதுவான பெஞ்ச்மார்க்குகள் மாடல்களைத் தனித்துச் சோதிக்கின்றன. தயாரிப்பு நிலையில் (production), நீங்கள் ஏஜென்ட்களை (agents) இயக்குவீர்கள். ஏஜென்ட்கள் கருவிகளை அழைக்கும் (call tools), இணையத்தில் தேடும் மற்றும் கோடை இயக்கும். சாதாரண பெஞ்ச்மார்க்குகள் இதை அளவிடுவதில்லை.

LXT அறிக்கைகள் ஒரு மிகப்பெரிய இடைவெளியைக் காட்டுகின்றன. பிப்ரவரி 2026-இல், கருவி அணுகலுடன் (tool access), மதிப்பெண்கள் இவ்வாறு இருந்தன:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

கருவி அணுகல் இல்லாமல், இந்த மதிப்பெண்கள் குறைகின்றன. கருவி உதவியுடன் பெறும் மதிப்பெண்களுக்கும், கருவி இல்லாத மதிப்பெண்களுக்கும் இடையிலான இடைவெளியே ஏஜென்ட்களுக்குத் தேவையான முக்கியமான அளவுகோலாகும்.

பொது அறிவுத் தகவல்கள் (trivia) அல்லது நிலையான சோதனைகளில் (static tests) வெற்றி பெறும் மாடல்கள், பெரும்பாலும் ஒரு சிறிய ஃபங்ஷன் கால் (function call) எழுதுவதிலேயே தோல்வியடைகின்றன.

நீங்கள் ஏஜென்ட்களை உருவாக்குகிறீர்கள் என்றால், இந்த மூன்று விஷயங்களில் கவனம் செலுத்துங்கள்:

  1. கருவி அழைப்பு நம்பகத்தன்மை (Tool call reliability). கவனச்சிதறல்களின் போதும் மாடல் அழைப்புகளைச் சரியாக வடிவமைக்கிறதா? பிழைகளிலிருந்து மீண்டு வர முடியுமா?
  2. கான்டெக்ஸ்ட் விண்டோ பொருளாதாரம் (Context window economics). சில கருவி அமைப்புகள் 10 முதல் 32 மடங்கு கூடுதல் டோக்கன்களை (tokens) செலவிடுகின்றன. ஒவ்வொரு அழைப்பிலும் உங்கள் பட்ஜெட்டைத் தீர்த்துவிடுவதானால், ஒரு பெரிய கான்டெக்ஸ்ட் விண்டோ பயனற்றது.
  3. பல படிநிலைத் திட்டமிடல் (Multi-step planning). மாடலால் 5-படித் திட்டத்தைத் தக்கவைக்க முடியுமா? பல மாடல்கள் 3-வது படிநிலையிலேயே வழிதவறிவிடுகின்றன.

பொதுவான லீடர்போர்டுகளை மட்டுமே உங்கள் வழிகாட்டியாகப் பயன்படுத்துவதை நிறுத்துங்கள். அதற்குப் பதிலாக இதைச் செய்யுங்கள்:

• ஒரு சிறிய பெஞ்ச்மார்க்கை (mini-benchmark) நடத்துங்கள். உங்கள் சொந்த லாக்ஸிலிருந்து (logs) 20 முதல் 50 உண்மையான கருவி அழைப்புகளைப் பயன்படுத்துங்கள். உங்கள் குறிப்பிட்ட ஸ்கீமாவில் (schema) துல்லியத்தை அளவிடுங்கள். • பிழை நிலைகளைச் சோதியுங்கள் (Test error conditions). ஒரு கருவி பிழையைத் தரும்போதோ அல்லது காலியான தரவைத் தரும்போதோ மாடல் எவ்வாறு செயல்படுகிறது என்று பாருங்கள். • ஒரு பணிக்குத் தேவைப்படும் செலவை அளவிடுங்கள். 5% சிறப்பாக இருந்து, ஆனால் 3 மடங்கு அதிகச் செலவாகும் ஒரு மாடல் பெரும்பாலும் தவறான தேர்வாகவே இருக்கும். • சிறப்பு லீடர்போர்டுகளைப் பயன்படுத்துங்கள். ஒட்டுமொத்த தரவரிசையைப் பார்ப்பதற்குப் பதிலாக, BenchLM.ai இல் கருவிப் பயன்பாடு மற்றும் கோடிங் ஏஜென்ட் மதிப்பெண்களைப் பாருங்கள்.

#3 தரவரிசையில் உள்ள ஒரு மாடல் ஒரு தனிப்பட்ட ப்ராம்ப்ட்டிற்கு (prompt) சரியாக இருக்கலாம். ஆனால் ஒரு ஏஜென்ட்டிற்கு அது பேரழிவாக இருக்கலாம்.

உங்கள் சொந்தக் கருவிகளைச் சோதிக்க ஒரு மதிய நேரத்தைச் செலவிடுங்கள். அது பிற்காலத்தில் ஒரு வார கால டீபக்கிங் (debugging) நேரத்தைச் சேமிக்கும்.

உங்கள் மாடல்களை நீங்கள் எவ்வாறு மதிப்பீடு செய்கிறீர்கள்? பதில்களில் எனக்குத் தெரியப்படுத்துங்கள்.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Optional learning community: https://t.me/GyaanSetuAi