2026-இல் LLM-as-Judge நம்பகத்தன்மை

LLM-as-Judge முறை இன்று கிட்டத்தட்ட அனைத்து லீடர்போர்டுகளும் (leaderboard) மற்றும் ரிவார்டு மாடல்களும் (reward model) பயன்படுத்தப்படுகிறது. ஜூன் 2026-இல் வெளியான எட்டு புதிய ஆய்வுகள் ஒரு மிகப்பெரிய சிக்கலைச் சுட்டிக்காட்டுகின்றன. இந்தத் தீர்ப்பளிப்பவர்கள் (judges) பெரும்பாலும் நம்பகத்தன்மையற்றவர்களாக உள்ளனர்.

மிக முக்கியமான கண்டுபிடிப்பு: ஒரு நாணயத்தைச் சுண்டும்போது கிடைக்கும் முடிவைப் போல, இந்தத் தீர்ப்பளிப்பவர்கள் தங்களுக்குள்ளேயே அடிக்கடி முரண்படுகிறார்கள். ஒரு ஆய்வில், 29 பணிகளுக்காக இரண்டு OpenAI தீர்ப்பளிப்பவர்கள் பயன்படுத்தப்பட்டனர். ஒவ்வொரு பணிக்காகவும் 50 சோதனைகள் நடத்தப்பட்டன. முடிவுகள் மிகவும் நிலையற்றதாக இருந்ததால், ஆராய்ச்சியாளர்கள் இதை "The Coin Flip Judge" என்று அழைத்தனர்.

இந்தத் தீர்ப்பளிப்பவர்கள் தோல்வியடையும் முக்கிய வழிகள் இதோ:

நீங்கள் எவ்வாறு செயல்பட வேண்டும்:

எந்தத் தீர்ப்பளிப்பவர் சிறந்தவர் என்று கேட்பதை நிறுத்துங்கள். மனிதக் குறியீடுகளுடன் (human labels) முடிவுகளை மிக விரைவாகச் சரிபார்க்க எந்தக் கருவி உதவுகிறது என்று கேளுங்கள்.

ஆதாரம்: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca