LLM బెంచ్‌మార్క్ అబద్ధం

📅3 hours ago⏱2 min read

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 అబద్ధం

లీడర్‌బోర్డ్ స్కోర్‌లు తరచుగా మిమ్మల్ని మోసం చేస్తాయి.

గత నెలలో నేను ఒక ఏజెంటిక్ పైప్‌లైన్ (agentic pipeline) కోసం మోడల్‌లను పరీక్షించాను. ఒక ప్రముఖ లీడర్‌బోర్డ్‌లో ఉన్న టాప్ మోడల్‌ను నేను ఎంచుకున్నాను. నేను దానిని ప్రొడక్షన్‌లోకి పంపించాను. అది ప్రాథమిక టూల్-యూజ్ (tool-use) పనుల్లో వెంటనే విఫలమైంది.

ఆ స్కోరు నిజమే. కానీ నా అవసరాలకు ఆ స్కోరు పనికిరాదు.

చాలా పబ్లిక్ బెంచ్‌మార్క్‌లు మోడల్‌లను విడిగా (in isolation) పరీక్షిస్తాయి. ప్రొడక్షన్‌లో, మీరు ఏజెంట్లను నడుపుతారు. ఈ ఏజెంట్లు టూల్స్‌ను పిలుస్తాయి (call tools), వెబ్‌లో వెతుకుతాయి మరియు కోడ్‌ను ఎగ్జిక్యూట్ చేస్తాయి. స్టాండర్డ్ బెంచ్‌మార్క్‌లు వీటిని కొలవలేవు.

ఫిబ్రవరి 2026 నాటి LXT రిపోర్ట్ డేటా ప్రకారం, టూల్ యాక్సెస్ (tool access) ఉన్నప్పుడు భారీ వ్యత్యాసం కనిపిస్తుంది:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

టూల్ యాక్సెస్ లేకుండా, ఈ స్కోర్‌లు పడిపోతాయి. టూల్-అసిస్టెడ్ (tool-assisted) మరియు నాన్-టూల్ (non-tool) స్కోర్‌ల మధ్య ఉన్న వ్యత్యాసం మాత్రమే ఏజెంట్లకు ముఖ్యమైన మెట్రిక్.

BenchLM.ai దీనిని ధృవీకరిస్తుంది. MMLU వంటి ట్రివియా లేదా స్టాటిక్ టెస్టుల్లో గెలిచే మోడల్‌లు తరచుగా ఒకే ఒక ఫంక్షన్ కాల్ (function call) రాయడంలో విఫలమవుతాయి.

మీకు ఒక ఈమెయిల్ రాయడం అవసరమైతే, స్టాండర్డ్ బెంచ్‌మార్క్ సరిపోతుంది. కానీ మీరు ఒక ఏజెంట్‌ను నిర్మిస్తుంటే, ఈ మూడు విషయాలపై దృష్టి పెట్టండి:

టూల్ కాల్ విశ్వసనీయత (Tool call reliability). ఒత్తిడిలో మోడల్ కాల్స్‌ను సరిగ్గా ఫార్మాట్ చేయగలదా? లోపాల నుండి కోలుకోగలదా?
కాంటెక్స్ట్ విండో ఖర్చులు (Context window costs). MCP సర్వర్‌లను ఉపయోగించడం వల్ల టోకెన్ల ఖర్చు చాలా ఎక్కువగా ఉంటుంది. ప్రతి టూల్ కాల్‌పై టోకెన్లను ఖర్చు చేస్తే, పెద్ద కాంటెక్స్ట్ విండో ఒక భారంగా మారుతుంది.
ప్లానింగ్ ఫిడెలిటీ (Planning fidelity). మోడల్ 5-స్టెప్ ప్లాన్‌ను అనుసరించగలదా? చాలా మోడల్‌లు 3వ స్టెప్ వచ్చేసరికి సందర్భాన్ని కోల్పోతాయి.

పబ్లిక్ లీడర్‌బోర్డ్‌లను మాత్రమే మీ మార్గదర్శకాలుగా ఉపయోగించడం ఆపండి. దానికి బదులుగా ఇది చేయండి:

• ఒక మినీ-బెంచ్‌మార్క్ (mini-benchmark) నిర్వహించండి. మీ స్వంత లాగ్‌ల నుండి 20 నుండి 50 నిజమైన టూల్ కాల్స్‌ను ఉపయోగించండి. మీ నిర్దిష్ట స్కీమా (schema) పై ఖచ్చితత్వాన్ని కొలవండి.

• ఎర్రర్ కండిషన్లను (error conditions) పరీక్షించండి. ఒక టూల్ ఖాళీ ఫలితాన్ని లేదా ఎర్రర్‌ను ఇచ్చినప్పుడు మోడల్ ఎలా స్పందిస్తుందో చూడండి.

• టాస్క్ દીట ఖర్చును (cost per task) కొలవండి. 5% మెరుగ్గా ఉండి, 3 రెట్లు ఎక్కువ ఖర్చు అయ్యే మోడల్ తరచుగా తప్పుడు ఎంపిక అవుతుంది.

• నిర్దిష్ట లీడర్‌బోర్డ్‌లను ఉపయోగించండి. టూల్-యూజ్ స్కోర్‌ల కోసం ప్రత్యేకంగా LLM-stats.com లేదా BenchLM.aiలను చూడండి.

మీ స్వంత డేటాను పరీక్షించడానికి ఒక మధ్యాహ్నాన్ని కేటాయించండి. కాగితం మీద మాత్రమే బాగున్న మోడల్‌ను డీబగ్ (debug) చేస్తూ వారం వారం వృథా కాకుండా ఇది మిమ్మల్ని కాపాడుతుంది.

మీరు మీ మోడల్‌లను ఎలా అంచనా వేస్తారు? రిప్లైలలో నాకు తెలియజేయండి.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

Optional learning community: https://t.me/GyaanSetuAi

LLM బెంచ్‌మార్క్ అబద్ధం

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁