2026 में LLM-as-judge की विश्वसनीयता

आज अधिकांश लीडरबोर्ड और मूल्यांकन पोस्ट LLM-as-judge टूल्स द्वारा संचालित होते हैं।

जून 2026 के आठ नए अध्ययन एक बड़ी समस्या को दर्शाते हैं। ये अध्ययन बताते हैं कि AI जज अक्सर अपने ही निर्णयों से असहमत होते हैं। वे सिक्के के उछाल (coin flip) की तरह काम करते हैं।

डेटा तीन मुख्य विफलताओं को दर्शाता है:

• कम विश्वसनीयता (Low Reliability): एक अध्ययन में 29 कार्यों पर दो OpenAI जजों का परीक्षण किया गया। उन्होंने प्रत्येक परीक्षण को 50 बार दोहराया। परिणाम इतने असंगत थे कि लेखकों ने इसे "The Coin Flip Judge" कहा। एक बार का निर्णय (single-run verdict) अधिकतर शोर (noise) मात्र है।

• कंप्यूट संवेदनशीलता (Compute Sensitivity): मॉडल का प्रदर्शन इस बात पर निर्भर करता है कि आप परीक्षण के दौरान कितना कंप्यूट (compute) आवंटित करते हैं। एक मॉडल लीडरबोर्ड पर खराब दिख सकता है क्योंकि परीक्षण में टोकन की सीमा (token cap) कम थी। बजट बदलते ही रैंकिंग बदल जाती है।

• ब्रांड पूर्वाग्रह (Brand Bias): जज GPT या Claude जैसे प्रसिद्ध नामों के प्रति झुकाव दिखाते हैं। यह पूर्वाग्रह परिणामों को प्रभावित करता है और तुलना को अनुचित बनाता है।

आपको क्या करना चाहिए:

यह पूछना बंद करें कि कौन सा जज सबसे अधिक स्कोर करता है। इसके बजाय यह पूछें कि कौन सा जज टूल आपको मनुष्यों के विरुद्ध सबसे कम लागत में सत्यापन करने में मदद करता है।

स्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca