वह LLM बेंचमार्क स्कोर जिसकी आपको ज़रूरत है, उसका अस्तित्व ही नहीं है
अधिकांश LLM लीडरबोर्ड आपसे झूठ बोलते हैं।
पिछले महीने मैंने एक एजेंटिक पाइपलाइन (agentic pipeline) के लिए मॉडल्स का मूल्यांकन किया। मुझे कोड जनरेशन और मल्टी-स्टेप रीजनिंग (multi-step reasoning) की आवश्यकता थी। मैंने एक लोकप्रिय लीडरबोर्ड पर टॉप मॉडल को चुना। मैंने उसे लागू (ship) किया। लेकिन वह बुनियादी टूल-उपयोग (tool-use) कार्यों में विफल रहा।
लीडरबोर्ड स्कोर वास्तविक था। लेकिन मेरे काम के लिए वह बेकार भी था।
पब्लिक बेंचमार्क मॉडल्स का अलग-थलग (in isolation) परीक्षण करते हैं। प्रोडक्शन में, आप एजेंट्स चलाते हैं। एजेंट्स टूल्स को कॉल करते हैं, वेब पर सर्च करते हैं और कोड निष्पादित (execute) करते हैं। स्टैंडर्ड बेंचमार्क इसे नहीं मापते हैं।
LXT रिपोर्ट्स एक बड़ा अंतर दिखाती हैं। फरवरी 2026 में, टूल एक्सेस के साथ, स्कोर कुछ इस प्रकार थे:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
टूल एक्सेस के बिना, ये स्कोर गिर जाते हैं। टूल-असिस्टेड (tool-assisted) और नॉन-टूल (non-tool) स्कोर के बीच का अंतर ही एकमात्र मेट्रिक है जो एजेंट्स के लिए मायने रखता है।
जो मॉडल्स ट्रिविया या स्टैटिक टेस्ट में जीतते हैं, वे अक्सर एक सिंगल फंक्शन कॉल लिखने में भी विफल हो जाते हैं।
यदि आप एजेंट्स बनाते हैं, तो इन तीन क्षेत्रों पर ध्यान केंद्रित करें:
- टूल कॉल की विश्वसनीयता (Tool call reliability)। क्या मॉडल भटकाव (distraction) के बावजूद कॉल को सही ढंग से फॉर्मेट करता है? क्या यह त्रुटियों (errors) से उबर सकता है?
- कॉन्टेक्स्ट विंडो की लागत (Context window economics)। कुछ टूल सेटअप में 10x से 32x अधिक टोकन खर्च होते हैं। यदि एक बड़ी कॉन्टेक्स्ट विंडो हर कॉल पर आपका बजट खत्म कर देती है, तो वह व्यर्थ है।
- मल्टी-स्टेप प्लानिंग (Multi-step planning)। क्या मॉडल 5-स्टेप प्लान को बनाए रख सकता है? कई मॉडल्स तीसरे स्टेप तक आते-आते अपना ट्रैक खो देते हैं।
पब्लिक लीडरबोर्ड को अपना एकमात्र गाइड मानना बंद करें। इसके बजाय यह करें:
• एक मिनी-बेंचमार्क चलाएं। अपने स्वयं के लॉग्स से 20 से 50 वास्तविक टूल कॉल का उपयोग करें। अपने विशिष्ट स्कीमा (schema) पर सटीकता मापें। • एरर कंडीशंस (error conditions) का परीक्षण करें। देखें कि जब कोई टूल एरर या खाली डेटा लौटाता है, तो मॉडल कैसा व्यवहार करता है। • प्रति कार्य लागत (cost per task) मापें। एक मॉडल जो 5% बेहतर है लेकिन 3x अधिक महंगा है, वह अक्सर गलत चुनाव होता है। • स्पेशलाइज्ड लीडरबोर्ड का उपयोग करें। ओवरऑल रैंकिंग के बजाय BenchLM.ai पर टूल-उपयोग और कोडिंग एजेंट स्कोर देखें।
#3 रैंक वाला मॉडल एक सिंगल प्रॉम्प्ट के लिए परफेक्ट हो सकता है। लेकिन एक एजेंट के लिए यह आपदा (disaster) साबित हो सकता है।
अपने स्वयं के टूल्स का परीक्षण करने में एक दोपहर बिताएं। यह बाद में आपके डिबगिंग (debugging) के एक पूरे हफ्ते को बचा लेगा।
आप अपने मॉडल्स का मूल्यांकन कैसे कर रहे हैं? मुझे रिप्लाई में बताएं।
Optional learning community: https://t.me/GyaanSetuAi