२०२६ मध्ये 'LLM as Judge' ची विश्वासार्हता

📅3 hours ago⏱1 min read

𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 ची विश्वासार्हता २०२६ मध्ये

आजकाल जवळजवळ प्रत्येक लीडरबोर्ड आणि रिवॉर्ड मॉडेल LLM-as-Judge द्वारे चालवले जाते. जून २०२६ मधील आठ नवीन अभ्यास एक मोठी समस्या दर्शवतात. हे जज अनेकदा अविश्वसनीय असतात.

सर्वात मोठा निष्कर्ष: जज स्वतःच्या निर्णयांवर इतक्या वेळा असहमत होतात जितक्या वेळा नाणे फेकल्यावर निकाल बदलतो. एका अभ्यासात २९ कामांसाठी दोन OpenAI जज वापरण्यात आले. त्यांनी प्रत्येक कामासाठी ५० चाचण्या केल्या. निकाल इतके विसंगत होते की संशोधकांनी याला "The Coin Flip Judge" असे संबोधले.

हे जज ज्या मुख्य प्रकारे अपयशी ठरतात ते खालीलप्रमाणे आहेत:

कमी विश्वासार्हता: सेटिंग्ज स्थिर असूनही, जज एकाच इनपुटसाठी वेगवेगळे विजेते घोषित करतात. एकदाच चालवलेल्या लीडरबोर्डमधील आघाडी अनेकदा केवळ 'नॉईज' (noise) असते.
कम्प्युट बायस (Compute bias): मूल्यमापनासाठी किती कम्प्युट उपलब्ध आहे यावर मॉडेल चांगले किंवा वाईट दिसू शकते. जर चाचणीची मर्यादा खूप कमी असेल, तर तुम्ही मॉडेलची खरी क्षमता ओळखू शकत नाही.
उद्दिष्टांमधील तफावत (Goal mismatch): शिक्षणाच्या क्षेत्रात, जे मॉडेल्स बेंचमार्क जिंकतात ते अनेकदा विद्यार्थ्यांना प्रत्यक्षात शिकवण्यात अपयशी ठरतात. ते कामे सोडवतात पण शिकण्यास मदत करत नाहीत.
ब्रँड बायस (Brand bias): जज GPT किंवा Claude सारख्या प्रसिद्ध नावांना प्राधान्य देतात. यामुळे निकाल एका बाजूला झुकतात.

तुम्ही काय केले पाहिजे:

सोलो डेव्हलपर्ससाठी: LLM-as-Judge टाळा. त्याऐवजी ३० आउटपुट्स मॅन्युअली लेबल करा. एक चुकीचा जज चुकीचा आत्मविश्वास निर्माण करतो.
टीम्ससाठी: असे टूल निवडा जे मानवी लेबलिंग (human labeling) सोपे करते. मॅन्युअल काम करण्यापेक्षा टूलिंगला कमी महत्त्व आहे.
मोठ्या प्रमाणावरील कामांसाठी: प्रत्येक आयटमसाठी किमान २० ते ५० चाचण्या करा. खरा विजेता शोधण्यासाठी बहुमताचा (majority vote) वापर करा.
बिझनेस ओनर्ससाठी: जर एखादा विक्रेता १० पेक्षा कमी पॉइंट्सच्या आघाडीचा दावा करत असेल, तर त्याला बरोबरी (tie) समजा. जजकडून येणारा 'नॉईज' हा त्या आघाडीपेक्षा मोठा असण्याची शक्यता आहे.

कोणता जज सर्वोत्तम आहे हे विचारणे थांबवा. मानवी लेबल्सच्या विरुद्ध निकाल सर्वात वेगाने सत्यापित (validate) करण्यास कोणते टूल मदत करते, हे विचारा.

स्त्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

२०२६ मध्ये 'LLM as Judge' ची विश्वासार्हता

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

तुम्हाला हवी असलेली LLM बेंचमार्क स्कोअर अस्तित्वात नाही

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

२०२६ मध्ये न्यायाधीश म्हणून LLM ची विश्वासार्हता