तुम्हाला हवी असलेली LLM बेंचमार्क स्कोअर अस्तित्वात नाही
बहुतेक LLM लीडरबोर्ड्स तुम्हाला फसवतात.
गेल्या महिन्यात मी एका agentic pipeline साठी मॉडेल्सचे मूल्यमापन केले. मला code generation आणि multi-step reasoning ची गरज होती. मी एका लोकप्रिय लीडरबोर्डवरील टॉप मॉडेल निवडले. मी ते लागू केले. पण ते मूलभूत tool-use कामांमध्ये अपयशी ठरले.
लीडरबोर्ड स्कोअर खरा होता. पण माझ्या कामासाठी तो निरुपयोगी होता.
पब्लिक बेंचमार्क्स मॉडेल्सचे विलगीकरण करून (in isolation) परीक्षण करतात. प्रत्यक्षात (In production), तुम्ही agents चालवता. Agents टूल्स वापरतात, वेबवर शोध घेतात आणि कोड कार्यान्वित करतात. स्टँडर्ड बेंचमार्क्स हे मोजत नाहीत.
LXT रिपोर्ट्स एक मोठी तफावत दर्शवतात. फेब्रुवारी २०२६ मध्ये, tool access सह, स्कोअर असे होते:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
Tool access शिवाय, हे स्कोअर कमी होतात. Tool-assisted आणि non-tool स्कोअरमधील तफावत हाच agents साठी महत्त्वाचा एकमेव निकष आहे.
जे मॉडेल्स trivia किंवा static tests मध्ये जिंकतात, ते अनेकदा एक सिंगल function call लिहिण्यातही अपयशी ठरतात.
जर तुम्ही agents बनवत असाल, तर या तीन क्षेत्रांवर लक्ष केंद्रित करा:
- Tool call reliability. विचलित परिस्थितीत (under distraction) मॉडेल calls योग्यरित्या format करते का? ते errors मधून सावरू शकते का?
- Context window economics. काही tool setups मध्ये 10x ते 32x जास्त tokens खर्च होतात. जर प्रत्येक call वर तुमचा बजेट संपत असेल, तर मोठी context window निरुपयोगी आहे.
- Multi-step planning. मॉडेल 5-step plan लक्षात ठेवू शकते का? अनेक मॉडेल्स तिसऱ्या स्टेपपर्यंत मूळ उद्देश विसरतात.
पब्लिक लीडरबोर्ड्सना तुमचा एकमेव मार्गदर्शक मानणे थांबवा. त्याऐवजी हे करा:
• एक mini-benchmark चालवा. तुमच्या स्वतःच्या logs मधून 20 ते 50 real tool calls वापरा. तुमच्या विशिष्ट schema वर अचूकता मोजा. • Error conditions तपासा. जेव्हा एखादे tool error किंवा रिकामी data देते, तेव्हा मॉडेल कसे वागते ते पहा. • प्रति task खर्च मोजा. जे मॉडेल 5% चांगले आहे पण 3x महाग आहे, ते अनेकदा चुकीचे निवडले जाते. • Specialized leaderboards वापरा. एकूण rankings ऐवजी BenchLM.ai वरील tool-use आणि coding agent स्कोअर पहा.
#3 रँक असलेले मॉडेल एका सिंगल prompt साठी उत्तम असू शकते. पण agent साठी ते पूर्णपणे अपयशी ठरू शकते.
तुमच्या स्वतःच्या tools ची चाचणी घेण्यासाठी एक दुपार खर्च करा. यामुळे नंतर तुम्हाला एक आठवडा debugging करण्यापासून वाचेल.
तुम्ही तुमच्या मॉडेल्सचे मूल्यमापन कसे करत आहात? मला कमेंट्समध्ये कळवा.
Optional learning community: https://t.me/GyaanSetuAi