𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 ची विश्वासार्हता २०२६ मध्ये

LLM-as-Judge आज बहुतेक लीडरबोर्ड्स आणि मूल्यमापन पोस्ट्स चालवते. जून २०२६ मधील आठ नवीन अभ्यास एक समस्या दर्शवतात. हे जज अनेकदा स्वतःशीच इतक्या प्रमाणात असहमत होतात, जितकी शक्यता नाणेफेकीत (coin flip) असते.

जर तुम्ही एकाच जज रनवर (single judge run) अवलंबून असाल, तर तुम्ही केवळ गोंधळ (noise) पाहत आहात.

अलीकडील संशोधनातील मुख्य निष्कर्ष:

तुम्ही काय केले पाहिजे:

कोणता जज सर्वाधिक स्कोअर करतो हे विचारणे थांबवा. त्याऐवजी, कोणते जज टूल तुम्हाला रिअल ह्युमन लेबल्सच्या (real human labels) आधारे निकाल प्रमाणित करणे सर्वात सोपे करते, हे विचारा.

स्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi