जिस LLM बेंचमार्क स्कोर की आपको ज़रूरत है, वह मौजूद ही नहीं है

📅4 hours ago⏱2 min read

वह LLM बेंचमार्क स्कोर जिसकी आपको ज़रूरत है, उसका अस्तित्व ही नहीं है

अधिकांश LLM लीडरबोर्ड आपसे झूठ बोलते हैं।

पिछले महीने मैंने एक एजेंटिक पाइपलाइन (agentic pipeline) के लिए मॉडल्स का मूल्यांकन किया। मुझे कोड जनरेशन और मल्टी-स्टेप रीजनिंग (multi-step reasoning) की आवश्यकता थी। मैंने एक लोकप्रिय लीडरबोर्ड पर टॉप मॉडल को चुना। मैंने उसे लागू (ship) किया। लेकिन वह बुनियादी टूल-उपयोग (tool-use) कार्यों में विफल रहा।

लीडरबोर्ड स्कोर वास्तविक था। लेकिन मेरे काम के लिए वह बेकार भी था।

पब्लिक बेंचमार्क मॉडल्स का अलग-थलग (in isolation) परीक्षण करते हैं। प्रोडक्शन में, आप एजेंट्स चलाते हैं। एजेंट्स टूल्स को कॉल करते हैं, वेब पर सर्च करते हैं और कोड निष्पादित (execute) करते हैं। स्टैंडर्ड बेंचमार्क इसे नहीं मापते हैं।

LXT रिपोर्ट्स एक बड़ा अंतर दिखाती हैं। फरवरी 2026 में, टूल एक्सेस के साथ, स्कोर कुछ इस प्रकार थे:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

टूल एक्सेस के बिना, ये स्कोर गिर जाते हैं। टूल-असिस्टेड (tool-assisted) और नॉन-टूल (non-tool) स्कोर के बीच का अंतर ही एकमात्र मेट्रिक है जो एजेंट्स के लिए मायने रखता है।

जो मॉडल्स ट्रिविया या स्टैटिक टेस्ट में जीतते हैं, वे अक्सर एक सिंगल फंक्शन कॉल लिखने में भी विफल हो जाते हैं।

यदि आप एजेंट्स बनाते हैं, तो इन तीन क्षेत्रों पर ध्यान केंद्रित करें:

टूल कॉल की विश्वसनीयता (Tool call reliability)। क्या मॉडल भटकाव (distraction) के बावजूद कॉल को सही ढंग से फॉर्मेट करता है? क्या यह त्रुटियों (errors) से उबर सकता है?
कॉन्टेक्स्ट विंडो की लागत (Context window economics)। कुछ टूल सेटअप में 10x से 32x अधिक टोकन खर्च होते हैं। यदि एक बड़ी कॉन्टेक्स्ट विंडो हर कॉल पर आपका बजट खत्म कर देती है, तो वह व्यर्थ है।
मल्टी-स्टेप प्लानिंग (Multi-step planning)। क्या मॉडल 5-स्टेप प्लान को बनाए रख सकता है? कई मॉडल्स तीसरे स्टेप तक आते-आते अपना ट्रैक खो देते हैं।

पब्लिक लीडरबोर्ड को अपना एकमात्र गाइड मानना बंद करें। इसके बजाय यह करें:

• एक मिनी-बेंचमार्क चलाएं। अपने स्वयं के लॉग्स से 20 से 50 वास्तविक टूल कॉल का उपयोग करें। अपने विशिष्ट स्कीमा (schema) पर सटीकता मापें। • एरर कंडीशंस (error conditions) का परीक्षण करें। देखें कि जब कोई टूल एरर या खाली डेटा लौटाता है, तो मॉडल कैसा व्यवहार करता है। • प्रति कार्य लागत (cost per task) मापें। एक मॉडल जो 5% बेहतर है लेकिन 3x अधिक महंगा है, वह अक्सर गलत चुनाव होता है। • स्पेशलाइज्ड लीडरबोर्ड का उपयोग करें। ओवरऑल रैंकिंग के बजाय BenchLM.ai पर टूल-उपयोग और कोडिंग एजेंट स्कोर देखें।

#3 रैंक वाला मॉडल एक सिंगल प्रॉम्प्ट के लिए परफेक्ट हो सकता है। लेकिन एक एजेंट के लिए यह आपदा (disaster) साबित हो सकता है।

अपने स्वयं के टूल्स का परीक्षण करने में एक दोपहर बिताएं। यह बाद में आपके डिबगिंग (debugging) के एक पूरे हफ्ते को बचा लेगा।

आप अपने मॉडल्स का मूल्यांकन कैसे कर रहे हैं? मुझे रिप्लाई में बताएं।

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Optional learning community: https://t.me/GyaanSetuAi

जिस LLM बेंचमार्क स्कोर की आपको ज़रूरत है, वह मौजूद ही नहीं है

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

सबसे शक्तिशाली मॉडल का मिथक

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

LLM बेंचमार्क का झूठ