𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

2026-இல் LLM-as-Judge நம்பகத்தன்மை

LLM-as-Judge முறை இன்று கிட்டத்தட்ட அனைத்து லீடர்போர்டுகளும் (leaderboard) மற்றும் ரிவார்டு மாடல்களும் (reward model) பயன்படுத்தப்படுகிறது. ஜூன் 2026-இல் வெளியான எட்டு புதிய ஆய்வுகள் ஒரு மிகப்பெரிய சிக்கலைச் சுட்டிக்காட்டுகின்றன. இந்தத் தீர்ப்பளிப்பவர்கள் (judges) பெரும்பாலும் நம்பகத்தன்மையற்றவர்களாக உள்ளனர்.

மிக முக்கியமான கண்டுபிடிப்பு: ஒரு நாணயத்தைச் சுண்டும்போது கிடைக்கும் முடிவைப் போல, இந்தத் தீர்ப்பளிப்பவர்கள் தங்களுக்குள்ளேயே அடிக்கடி முரண்படுகிறார்கள். ஒரு ஆய்வில், 29 பணிகளுக்காக இரண்டு OpenAI தீர்ப்பளிப்பவர்கள் பயன்படுத்தப்பட்டனர். ஒவ்வொரு பணிக்காகவும் 50 சோதனைகள் நடத்தப்பட்டன. முடிவுகள் மிகவும் நிலையற்றதாக இருந்ததால், ஆராய்ச்சியாளர்கள் இதை "The Coin Flip Judge" என்று அழைத்தனர்.

இந்தத் தீர்ப்பளிப்பவர்கள் தோல்வியடையும் முக்கிய வழிகள் இதோ:

குறைந்த நம்பகத்தன்மை: அமைப்புகள் (settings) நிலையாக இருந்தபோதிலும், ஒரே உள்ளீட்டிற்கு (input) தீர்ப்பளிப்பவர்கள் வெவ்வேறு வெற்றியாளர்களைத் தேர்ந்தெடுக்கிறார்கள். ஒருமுறை மட்டும் நடத்தப்படும் லீடர்போர்டு முன்னிலை பெரும்பாலும் வெறும் இரைச்சலாகவே (noise) இருக்கும்.
கணினித் திறன் சார்பு (Compute bias): மதிப்பீடு எவ்வளவு கணினித் திறனை (compute) அனுமதிக்கிறது என்பதைப் பொறுத்து ஒரு மாடல் சிறந்ததாகவோ அல்லது மோசமானதாகவோ தோன்றலாம். சோதனையின் வரம்பு மிகவும் குறைவாக இருந்தால், அந்த மாடலின் உண்மையான திறனை உங்களால் கண்டறிய முடியாது.
இலக்கு முரண்பாடு (Goal mismatch): கல்வியில், பெஞ்ச்மார்க் (benchmarks) தேர்வுகளில் வெற்றி பெறும் மாடல்கள் பெரும்பாலும் மாணவர்களுக்கு உண்மையாகக் கற்பிப்பதில் தோல்வியடைகின்றன. அவை பணிகளைச் செய்கின்றன, ஆனால் கற்றலுக்குத் துணைபுரியவில்லை.
பிராண்ட் சார்பு (Brand bias): GPT அல்லது Claude போன்ற நன்கு அறியப்பட்ட பெயர்களுக்குத் தீர்ப்பளிப்பவர்கள் முன்னுரிமை அளிக்கின்றனர். இது முடிவுகளைத் தவறாக மாற்றுகிறது.

நீங்கள் எவ்வாறு செயல்பட வேண்டும்:

தனிப்பட்ட டெவலப்பர்களுக்கு: LLM-as-Judge முறையைத் தவிர்க்கவும். அதற்குப் பதிலாக 30 வெளியீடுகளை (outputs) கைமுறையாகக் குறியீடு (label) செய்யவும். ஒரு மோசமான தீர்ப்பளிப்பவர் தவறான நம்பிக்கையை உருவாக்குகிறார்.
குழுக்களுக்கு: மனிதர்கள் எளிதாகக் குறியீடு (labeling) செய்ய உதவும் ஒரு கருவியைத் தேர்ந்தெடுக்கவும். கைமுறையாக வேலை செய்வதை விடக் கருவிகள் முக்கியமல்ல.
அதிக அளவிலான பணிகளுக்கு: ஒவ்வொரு பொருளுக்கும் குறைந்தது 20 முதல் 50 சோதனைகளைச் செய்யவும். உண்மையான வெற்றியாளரைக் கண்டறிய பெரும்பான்மை வாக்கெடுப்பைப் (majority vote) பயன்படுத்தவும்.
வணிக உரிமையாளர்களுக்கு: ஒரு விற்பனையாளர் 10 புள்ளிகளுக்குக் குறைவான முன்னிலையைத் தெரிவித்தால், அதைச் சமமானதாகவே கருதவும். தீர்ப்பளிப்பவரிடமிருந்து வரும் இரைச்சல் (noise), அந்த முன்னிலையை விட அதிகமாக இருக்க வாய்ப்புள்ளது.

எந்தத் தீர்ப்பளிப்பவர் சிறந்தவர் என்று கேட்பதை நிறுத்துங்கள். மனிதக் குறியீடுகளுடன் (human labels) முடிவுகளை மிக விரைவாகச் சரிபார்க்க எந்தக் கருவி உதவுகிறது என்று கேளுங்கள்.

ஆதாரம்: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

உங்களுக்குத் தேவையான LLM பெஞ்ச்மார்க் ஸ்கோர் இல்லை

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

2026-இல் LLM-ஐத் தீர்ப்பாளராகப் பயன்படுத்துவதன் நம்பகத்தன்மை

2026-இல் LLM நீதிபதியாகச் செயல்படும் நம்பகத்தன்மை