2026-இல் LLM-as-Judge நம்பகத்தன்மை
LLM-as-Judge முறை இன்று கிட்டத்தட்ட அனைத்து லீடர்போர்டுகளும் (leaderboard) மற்றும் ரிவார்டு மாடல்களும் (reward model) பயன்படுத்தப்படுகிறது. ஜூன் 2026-இல் வெளியான எட்டு புதிய ஆய்வுகள் ஒரு மிகப்பெரிய சிக்கலைச் சுட்டிக்காட்டுகின்றன. இந்தத் தீர்ப்பளிப்பவர்கள் (judges) பெரும்பாலும் நம்பகத்தன்மையற்றவர்களாக உள்ளனர்.
மிக முக்கியமான கண்டுபிடிப்பு: ஒரு நாணயத்தைச் சுண்டும்போது கிடைக்கும் முடிவைப் போல, இந்தத் தீர்ப்பளிப்பவர்கள் தங்களுக்குள்ளேயே அடிக்கடி முரண்படுகிறார்கள். ஒரு ஆய்வில், 29 பணிகளுக்காக இரண்டு OpenAI தீர்ப்பளிப்பவர்கள் பயன்படுத்தப்பட்டனர். ஒவ்வொரு பணிக்காகவும் 50 சோதனைகள் நடத்தப்பட்டன. முடிவுகள் மிகவும் நிலையற்றதாக இருந்ததால், ஆராய்ச்சியாளர்கள் இதை "The Coin Flip Judge" என்று அழைத்தனர்.
இந்தத் தீர்ப்பளிப்பவர்கள் தோல்வியடையும் முக்கிய வழிகள் இதோ:
- குறைந்த நம்பகத்தன்மை: அமைப்புகள் (settings) நிலையாக இருந்தபோதிலும், ஒரே உள்ளீட்டிற்கு (input) தீர்ப்பளிப்பவர்கள் வெவ்வேறு வெற்றியாளர்களைத் தேர்ந்தெடுக்கிறார்கள். ஒருமுறை மட்டும் நடத்தப்படும் லீடர்போர்டு முன்னிலை பெரும்பாலும் வெறும் இரைச்சலாகவே (noise) இருக்கும்.
- கணினித் திறன் சார்பு (Compute bias): மதிப்பீடு எவ்வளவு கணினித் திறனை (compute) அனுமதிக்கிறது என்பதைப் பொறுத்து ஒரு மாடல் சிறந்ததாகவோ அல்லது மோசமானதாகவோ தோன்றலாம். சோதனையின் வரம்பு மிகவும் குறைவாக இருந்தால், அந்த மாடலின் உண்மையான திறனை உங்களால் கண்டறிய முடியாது.
- இலக்கு முரண்பாடு (Goal mismatch): கல்வியில், பெஞ்ச்மார்க் (benchmarks) தேர்வுகளில் வெற்றி பெறும் மாடல்கள் பெரும்பாலும் மாணவர்களுக்கு உண்மையாகக் கற்பிப்பதில் தோல்வியடைகின்றன. அவை பணிகளைச் செய்கின்றன, ஆனால் கற்றலுக்குத் துணைபுரியவில்லை.
- பிராண்ட் சார்பு (Brand bias): GPT அல்லது Claude போன்ற நன்கு அறியப்பட்ட பெயர்களுக்குத் தீர்ப்பளிப்பவர்கள் முன்னுரிமை அளிக்கின்றனர். இது முடிவுகளைத் தவறாக மாற்றுகிறது.
நீங்கள் எவ்வாறு செயல்பட வேண்டும்:
- தனிப்பட்ட டெவலப்பர்களுக்கு: LLM-as-Judge முறையைத் தவிர்க்கவும். அதற்குப் பதிலாக 30 வெளியீடுகளை (outputs) கைமுறையாகக் குறியீடு (label) செய்யவும். ஒரு மோசமான தீர்ப்பளிப்பவர் தவறான நம்பிக்கையை உருவாக்குகிறார்.
- குழுக்களுக்கு: மனிதர்கள் எளிதாகக் குறியீடு (labeling) செய்ய உதவும் ஒரு கருவியைத் தேர்ந்தெடுக்கவும். கைமுறையாக வேலை செய்வதை விடக் கருவிகள் முக்கியமல்ல.
- அதிக அளவிலான பணிகளுக்கு: ஒவ்வொரு பொருளுக்கும் குறைந்தது 20 முதல் 50 சோதனைகளைச் செய்யவும். உண்மையான வெற்றியாளரைக் கண்டறிய பெரும்பான்மை வாக்கெடுப்பைப் (majority vote) பயன்படுத்தவும்.
- வணிக உரிமையாளர்களுக்கு: ஒரு விற்பனையாளர் 10 புள்ளிகளுக்குக் குறைவான முன்னிலையைத் தெரிவித்தால், அதைச் சமமானதாகவே கருதவும். தீர்ப்பளிப்பவரிடமிருந்து வரும் இரைச்சல் (noise), அந்த முன்னிலையை விட அதிகமாக இருக்க வாய்ப்புள்ளது.
எந்தத் தீர்ப்பளிப்பவர் சிறந்தவர் என்று கேட்பதை நிறுத்துங்கள். மனிதக் குறியீடுகளுடன் (human labels) முடிவுகளை மிக விரைவாகச் சரிபார்க்க எந்தக் கருவி உதவுகிறது என்று கேளுங்கள்.
ஆதாரம்: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca