𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 ची विश्वासार्हता २०२६ मध्ये

आजकाल जवळजवळ प्रत्येक लीडरबोर्ड आणि रिवॉर्ड मॉडेल LLM-as-Judge द्वारे चालवले जाते. जून २०२६ मधील आठ नवीन अभ्यास एक मोठी समस्या दर्शवतात. हे जज अनेकदा अविश्वसनीय असतात.

सर्वात मोठा निष्कर्ष: जज स्वतःच्या निर्णयांवर इतक्या वेळा असहमत होतात जितक्या वेळा नाणे फेकल्यावर निकाल बदलतो. एका अभ्यासात २९ कामांसाठी दोन OpenAI जज वापरण्यात आले. त्यांनी प्रत्येक कामासाठी ५० चाचण्या केल्या. निकाल इतके विसंगत होते की संशोधकांनी याला "The Coin Flip Judge" असे संबोधले.

हे जज ज्या मुख्य प्रकारे अपयशी ठरतात ते खालीलप्रमाणे आहेत:

तुम्ही काय केले पाहिजे:

कोणता जज सर्वोत्तम आहे हे विचारणे थांबवा. मानवी लेबल्सच्या विरुद्ध निकाल सर्वात वेगाने सत्यापित (validate) करण्यास कोणते टूल मदत करते, हे विचारा.

स्त्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca