𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅2 hours ago⏱1 min read

𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 ची विश्वासार्हता २०२६ मध्ये

LLM-as-Judge आज बहुतेक लीडरबोर्ड्स आणि मूल्यमापन पोस्ट्स चालवते. जून २०२६ मधील आठ नवीन अभ्यास एक समस्या दर्शवतात. हे जज अनेकदा स्वतःशीच इतक्या प्रमाणात असहमत होतात, जितकी शक्यता नाणेफेकीत (coin flip) असते.

जर तुम्ही एकाच जज रनवर (single judge run) अवलंबून असाल, तर तुम्ही केवळ गोंधळ (noise) पाहत आहात.

अलीकडील संशोधनातील मुख्य निष्कर्ष:

कमी विश्वासार्हता: एका अभ्यासात २९ कामांसाठी दोन OpenAI जज वापरण्यात आले. अगदी समान इनपुट असूनही, जजनी वेगवेगळे विजेते घोषित केले. यामुळे सिंगल-रन लीडरबोर्ड्स अविश्वसनीय ठरतात.
कम्प्युट बायस (Compute bias): टेस्टिंग दरम्यान तुम्ही किती कम्प्युट वापरू देता, यावर मॉडेलचे स्कोअर बदलतात. केवळ टेस्टमध्ये टोकनची मर्यादा (token cap) कमी असल्यामुळे एखादे मॉडेल खराब वाटू शकते.
ब्रँड बायस (Brand bias): जज प्रसिद्ध मॉडेल नावांना प्राधान्य देतात. यामुळे निकाल प्रसिद्ध ब्रँड्सच्या बाजूने झुकतात.
उद्दिष्टांमधील विसंगती (Goal mismatch): शैक्षणिक साधनांमध्ये, एखादे मॉडेल टास्क-सॉल्व्हिंग बेंचमार्कमध्ये जिंकू शकते, परंतु प्रत्यक्षात विद्यार्थ्याला शिकण्यास मदत करण्यात अपयशी ठरू शकते.

तुम्ही काय केले पाहिजे:

सोलो डेव्हलपर्स (Solo developers): सध्यासाठी LLM-as-Judge टाळा. त्याऐवजी ३० आउटपुट्स मॅन्युअली लेबल करा. अनव्हॅलिडेटेड (unvalidated) जज चुकीचा आत्मविश्वास निर्माण करतो.
लहान टीम्स (Small teams): अशी साधने निवडा जी तुम्हाला वेगाने ह्युमन-लेबल डेटा (human-labeled data) मिळवण्यास मदत करतील. प्रत्यक्ष मानवी प्रमाणीकरणापेक्षा (human validation) टूल्सना कमी महत्त्व आहे.
मोठ्या बॅच वर्कलोड्स (Large batch workloads): प्रत्येक आयटमसाठी किमान २० ते ५० ट्रायल्स रन करा. गोंधळ (noise) टाळण्यासाठी 'मॅजॉरिटी व्होट'चा (majority vote) वापर करा.
बिझनेस ओनर्स (Business owners): १० पॉइंट्सपेक्षा कमी असलेल्या कोणत्याही बेंचमार्क लीडला 'टाय' (tie) समजा. गणित असे दर्शवते की रिप्लिकेशन दरम्यान हे अंतर अनेकदा नाहीसे होते.

कोणता जज सर्वाधिक स्कोअर करतो हे विचारणे थांबवा. त्याऐवजी, कोणते जज टूल तुम्हाला रिअल ह्युमन लेबल्सच्या (real human labels) आधारे निकाल प्रमाणित करणे सर्वात सोपे करते, हे विचारा.

स्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

तुम्हाला हवी असलेली LLM बेंचमार्क स्कोअर अस्तित्वात नाही

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

२०२६ मध्ये 'LLM as Judge' ची विश्वासार्हता

२०२६ मध्ये न्यायाधीश म्हणून LLM ची विश्वासार्हता