𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 అబద్ధం
లీడర్బోర్డ్ స్కోర్లు తరచుగా మిమ్మల్ని మోసం చేస్తాయి.
గత నెలలో నేను ఒక ఏజెంటిక్ పైప్లైన్ (agentic pipeline) కోసం మోడల్లను పరీక్షించాను. ఒక ప్రముఖ లీడర్బోర్డ్లో ఉన్న టాప్ మోడల్ను నేను ఎంచుకున్నాను. నేను దానిని ప్రొడక్షన్లోకి పంపించాను. అది ప్రాథమిక టూల్-యూజ్ (tool-use) పనుల్లో వెంటనే విఫలమైంది.
ఆ స్కోరు నిజమే. కానీ నా అవసరాలకు ఆ స్కోరు పనికిరాదు.
చాలా పబ్లిక్ బెంచ్మార్క్లు మోడల్లను విడిగా (in isolation) పరీక్షిస్తాయి. ప్రొడక్షన్లో, మీరు ఏజెంట్లను నడుపుతారు. ఈ ఏజెంట్లు టూల్స్ను పిలుస్తాయి (call tools), వెబ్లో వెతుకుతాయి మరియు కోడ్ను ఎగ్జిక్యూట్ చేస్తాయి. స్టాండర్డ్ బెంచ్మార్క్లు వీటిని కొలవలేవు.
ఫిబ్రవరి 2026 నాటి LXT రిపోర్ట్ డేటా ప్రకారం, టూల్ యాక్సెస్ (tool access) ఉన్నప్పుడు భారీ వ్యత్యాసం కనిపిస్తుంది:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
టూల్ యాక్సెస్ లేకుండా, ఈ స్కోర్లు పడిపోతాయి. టూల్-అసిస్టెడ్ (tool-assisted) మరియు నాన్-టూల్ (non-tool) స్కోర్ల మధ్య ఉన్న వ్యత్యాసం మాత్రమే ఏజెంట్లకు ముఖ్యమైన మెట్రిక్.
BenchLM.ai దీనిని ధృవీకరిస్తుంది. MMLU వంటి ట్రివియా లేదా స్టాటిక్ టెస్టుల్లో గెలిచే మోడల్లు తరచుగా ఒకే ఒక ఫంక్షన్ కాల్ (function call) రాయడంలో విఫలమవుతాయి.
మీకు ఒక ఈమెయిల్ రాయడం అవసరమైతే, స్టాండర్డ్ బెంచ్మార్క్ సరిపోతుంది. కానీ మీరు ఒక ఏజెంట్ను నిర్మిస్తుంటే, ఈ మూడు విషయాలపై దృష్టి పెట్టండి:
టూల్ కాల్ విశ్వసనీయత (Tool call reliability). ఒత్తిడిలో మోడల్ కాల్స్ను సరిగ్గా ఫార్మాట్ చేయగలదా? లోపాల నుండి కోలుకోగలదా?
కాంటెక్స్ట్ విండో ఖర్చులు (Context window costs). MCP సర్వర్లను ఉపయోగించడం వల్ల టోకెన్ల ఖర్చు చాలా ఎక్కువగా ఉంటుంది. ప్రతి టూల్ కాల్పై టోకెన్లను ఖర్చు చేస్తే, పెద్ద కాంటెక్స్ట్ విండో ఒక భారంగా మారుతుంది.
ప్లానింగ్ ఫిడెలిటీ (Planning fidelity). మోడల్ 5-స్టెప్ ప్లాన్ను అనుసరించగలదా? చాలా మోడల్లు 3వ స్టెప్ వచ్చేసరికి సందర్భాన్ని కోల్పోతాయి.
పబ్లిక్ లీడర్బోర్డ్లను మాత్రమే మీ మార్గదర్శకాలుగా ఉపయోగించడం ఆపండి. దానికి బదులుగా ఇది చేయండి:
• ఒక మినీ-బెంచ్మార్క్ (mini-benchmark) నిర్వహించండి. మీ స్వంత లాగ్ల నుండి 20 నుండి 50 నిజమైన టూల్ కాల్స్ను ఉపయోగించండి. మీ నిర్దిష్ట స్కీమా (schema) పై ఖచ్చితత్వాన్ని కొలవండి.
• ఎర్రర్ కండిషన్లను (error conditions) పరీక్షించండి. ఒక టూల్ ఖాళీ ఫలితాన్ని లేదా ఎర్రర్ను ఇచ్చినప్పుడు మోడల్ ఎలా స్పందిస్తుందో చూడండి.
• టాస్క్ દીట ఖర్చును (cost per task) కొలవండి. 5% మెరుగ్గా ఉండి, 3 రెట్లు ఎక్కువ ఖర్చు అయ్యే మోడల్ తరచుగా తప్పుడు ఎంపిక అవుతుంది.
• నిర్దిష్ట లీడర్బోర్డ్లను ఉపయోగించండి. టూల్-యూజ్ స్కోర్ల కోసం ప్రత్యేకంగా LLM-stats.com లేదా BenchLM.aiలను చూడండి.
మీ స్వంత డేటాను పరీక్షించడానికి ఒక మధ్యాహ్నాన్ని కేటాయించండి. కాగితం మీద మాత్రమే బాగున్న మోడల్ను డీబగ్ (debug) చేస్తూ వారం వారం వృథా కాకుండా ఇది మిమ్మల్ని కాపాడుతుంది.
మీరు మీ మోడల్లను ఎలా అంచనా వేస్తారు? రిప్లైలలో నాకు తెలియజేయండి.
Optional learning community: https://t.me/GyaanSetuAi