२०२६ मधील LLM-as-judge ची विश्वासार्हता

आजकाल बहुतेक लीडरबोर्ड्स (leaderboards) आणि मूल्यमापन पोस्ट्स LLM-as-judge टूल्सद्वारे चालवल्या जातात.

जून २०२६ मधील आठ नवीन अभ्यास एक मोठी समस्या दर्शवतात. हे अभ्यास उघड करतात की AI जज अनेकदा स्वतःशीच असहमत असतात. ते नाणेफेकीसारखे (coin flip) काम करतात.

डेटा तीन मुख्य त्रुटी दर्शवतो:

• कमी विश्वासार्हता (Low Reliability): एका अभ्यासात २९ कामांसाठी दोन OpenAI जजची चाचणी घेण्यात आली. त्यांनी प्रत्येक चाचणी ५० वेळा पुन्हा केली. निकाल इतके विसंगत होते की लेखकांनी त्याला "The Coin Flip Judge" असे संबोधले. एकदाच घेतलेला निर्णय हा बहुधा केवळ गोंधळ (noise) असतो.

• कॉम्प्युट संवेदनशीलता (Compute Sensitivity): चाचणी दरम्यान तुम्ही किती कॉम्प्युट (compute) वापरू देता, यावर मॉडेलची कामगिरी बदलते. केवळ चाचणीमध्ये टोकन मर्यादा (token cap) कमी असल्यामुळे एखादे मॉडेल लीडरबोर्डवर खराब दिसू शकते. बजेट बदलले की रँकिंग पूर्णपणे बदलू शकते.

• ब्रँड पक्षपात (Brand Bias): जज GPT किंवा Claude सारख्या प्रसिद्ध नावांना प्राधान्य देतात. हा पक्षपात निकालांना कल देतो आणि तुलना अन्यायकारक बनवतो.

तुम्ही काय केले पाहिजे:

कोणता जज सर्वाधिक स्कोअर करतो हे विचारणे थांबवा. कोणते जज टूल तुम्हाला मानवांच्या तुलनेत सर्वात स्वस्त पद्धतीने पडताळणी करण्यास मदत करते, हे विचारा.

स्त्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca