𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

2026 में LLM-as-judge की विश्वसनीयता

आज अधिकांश लीडरबोर्ड और मूल्यांकन पोस्ट LLM-as-judge टूल्स द्वारा संचालित होते हैं।

जून 2026 के आठ नए अध्ययन एक बड़ी समस्या को दर्शाते हैं। ये अध्ययन बताते हैं कि AI जज अक्सर अपने ही निर्णयों से असहमत होते हैं। वे सिक्के के उछाल (coin flip) की तरह काम करते हैं।

डेटा तीन मुख्य विफलताओं को दर्शाता है:

• कम विश्वसनीयता (Low Reliability): एक अध्ययन में 29 कार्यों पर दो OpenAI जजों का परीक्षण किया गया। उन्होंने प्रत्येक परीक्षण को 50 बार दोहराया। परिणाम इतने असंगत थे कि लेखकों ने इसे "The Coin Flip Judge" कहा। एक बार का निर्णय (single-run verdict) अधिकतर शोर (noise) मात्र है।

• कंप्यूट संवेदनशीलता (Compute Sensitivity): मॉडल का प्रदर्शन इस बात पर निर्भर करता है कि आप परीक्षण के दौरान कितना कंप्यूट (compute) आवंटित करते हैं। एक मॉडल लीडरबोर्ड पर खराब दिख सकता है क्योंकि परीक्षण में टोकन की सीमा (token cap) कम थी। बजट बदलते ही रैंकिंग बदल जाती है।

• ब्रांड पूर्वाग्रह (Brand Bias): जज GPT या Claude जैसे प्रसिद्ध नामों के प्रति झुकाव दिखाते हैं। यह पूर्वाग्रह परिणामों को प्रभावित करता है और तुलना को अनुचित बनाता है।

आपको क्या करना चाहिए:

व्यक्तिगत डेवलपर्स (Solo developers) के लिए: फिलहाल LLM-as-judge का उपयोग न करें। 30 आउटपुट को मैन्युअल रूप से लेबल करें। एक असत्यापित जज गलत आत्मविश्वास पैदा करता है।
टीमों के लिए: उस टूल को चुनें जो मानवीय लेबलिंग (human labeling) को आसान बनाता हो। वास्तविक मानवीय सत्यापन (human validation) की तुलना में टूलिंग का महत्व कम है।
बैच वर्कलोड के लिए: प्रति आइटम कम से कम 20 से 50 परीक्षण चलाएं। शोर (noise) को कम करने के लिए बहुमत के आधार पर निर्णय (majority vote) का उपयोग करें।
प्रोडक्ट ओनर्स के लिए: यदि कोई वेंडर 10 अंकों से कम की बढ़त दिखाता है, तो उसे बराबरी (tie) मान लें। छोटे अंतरों पर भरोसा करने के लिए शोर का स्तर (noise floor) बहुत अधिक है।

यह पूछना बंद करें कि कौन सा जज सबसे अधिक स्कोर करता है। इसके बजाय यह पूछें कि कौन सा जज टूल आपको मनुष्यों के विरुद्ध सबसे कम लागत में सत्यापन करने में मदद करता है।

स्रोत: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

जिस LLM बेंचमार्क स्कोर की आपको ज़रूरत है, वह मौजूद ही नहीं है

LLM बेंचमार्क का झूठ

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲