𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲
ഇന്ന് മിക്കവാറും എല്ലാ ലീഡർബോർഡുകളും (leaderboard) റിവാർഡ് മോഡലുകളും പ്രവർത്തിപ്പിക്കുന്നത് LLM-as-Judge ആണ്. 2026 ജൂണിലെ എട്ട് പുതിയ പഠനങ്ങൾ വലിയൊരു പ്രശ്നം ചൂണ്ടിക്കാണിക്കുന്നു. ഈ ജഡ്ജിമാർ പലപ്പോഴും വിശ്വസനീയമല്ല.
ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ: ഒരു നാണയം എറിയുന്നതുപോലെ തന്നെ പലപ്പോഴും ജഡ്ജിമാർ സ്വന്തം തീരുമാനങ്ങളിൽ തന്നെ വിയോജിക്കുന്നു. ഒരു പഠനത്തിൽ 29 ടാസ്ക്കുകൾക്കായി രണ്ട് OpenAI ജഡ്ജിമാരെ ഉപയോഗിച്ചു. ഓരോന്നിനും 50 തവണ വീതം പരീക്ഷണങ്ങൾ നടത്തി. ഫലങ്ങൾ അത്രത്തോളം അസ്ഥിരമായതിനാൽ ഗവേഷകർ ഇതിനെ "The Coin Flip Judge" എന്ന് വിളിച്ചു.
ഈ ജഡ്ജിമാർ പരാജയപ്പെടുന്ന പ്രധാന രീതികൾ താഴെ പറയുന്നവയാണ്:
- കുറഞ്ഞ വിശ്വാസ്യത: സെറ്റിംഗുകൾ മാറ്റമില്ലാതെ നിലനിർത്തിയാലും, ഒരേ ഇൻപുട്ടിന് ജഡ്ജിമാർ വ്യത്യസ്ത വിജയികളെ തിരഞ്ഞെടുക്കുന്നു. ഒറ്റത്തവണത്തെ ലീഡർബോർഡ് മുന്നേറ്റം പലപ്പോഴും വെറും noise മാത്രമായിരിക്കാം.
- കമ്പ്യൂട്ട് ബയാസ് (Compute bias): മൂല്യനിർണ്ണയത്തിന് എത്രത്തോളം കമ്പ്യൂട്ട് അനുവദിക്കുന്നു എന്നതിനെ ആശ്രയിച്ച് ഒരു മോഡൽ മികച്ചതോ മോശമോ ആയി തോന്നാം. ടെസ്റ്റ് പരിധി വളരെ കുറവാണെങ്കിൽ, മോഡലിന്റെ യഥാർത്ഥ കഴിവ് നിങ്ങൾക്ക് തിരിച്ചറിയാൻ കഴിയില്ല.
- ലക്ഷ്യങ്ങളിലെ പൊരുത്തക്കേട് (Goal mismatch): വിദ്യാഭ്യാസ രംഗത്ത്, ബെഞ്ച്മാർക്കുകളിൽ വിജയിക്കുന്ന മോഡലുകൾ പലപ്പോഴും വിദ്യാർത്ഥികളെ യഥാർത്ഥത്തിൽ പഠിപ്പിക്കുന്നതിൽ പരാജയപ്പെടുന്നു. അവ ടാസ്ക്കുകൾ പരിഹരിക്കുന്നുണ്ടെങ്കിലും പഠനത്തെ സഹായിക്കുന്നില്ല.
- ബ്രാൻഡ് ബയാസ് (Brand bias): GPT അല്ലെങ്കിൽ Claude പോലുള്ള പ്രശസ്തമായ പേരുകളോട് ജഡ്ജിമാർ പ്രത്യേക താൽപ്പര്യം കാണിക്കുന്നു. ഇത് ഫലങ്ങളെ സ്വാധീനിക്കുന്നു.
നിങ്ങൾ എങ്ങനെ പ്രവർത്തിക്കണം:
- ഒറ്റയ്ക്ക് പ്രവർത്തിക്കുന്ന ഡെവലപ്പർമാർക്ക്: LLM-as-Judge ഒഴിവാക്കുക. പകരം 30 ഔട്ട്പുട്ടുകൾ നേരിട്ട് ലേബൽ ചെയ്യുക. മോശം ഒരു ജഡ്ജി തെറ്റായ ആത്മവിശ്വാസം നൽകിയേക്കാം.
- ടീമുകൾക്ക്: മനുഷ്യർക്ക് നേരിട്ട് ലേബൽ ചെയ്യുന്നത് എളുപ്പമാക്കുന്ന ഒരു ടൂൾ തിരഞ്ഞെടുക്കുക. ടൂളുകളേക്കാൾ പ്രധാനം നേരിട്ടുള്ള പരിശോധനയാണ്.
- വലിയ അളവിലുള്ള ടാസ്ക്കുകൾക്ക്: ഓരോ ഐറ്റത്തിനും കുറഞ്ഞത് 20 മുതൽ 50 വരെ പരീക്ഷണങ്ങൾ നടത്തുക. യഥാർത്ഥ വിജയിയെ കണ്ടെത്താൻ ഭൂരിപക്ഷ വോട്ട് (majority vote) രീതി ഉപയോഗിക്കുക.
- ബിസിനസ് ഉടമകൾക്ക്: ഒരു വെണ്ടർ 10 പോയിന്റിൽ താഴെ മാത്രം മുന്നേറ്റം അവകാശപ്പെടുന്നുണ്ടെങ്കിൽ, അതിനെ സമനിലയായി കണക്കാക്കുക. ജഡ്ജിയിൽ നിന്നുള്ള noise ആ മുന്നേറ്റത്തേക്കാൾ വലുതായിരിക്കാൻ സാധ്യതയുണ്ട്.
ഏത് ജഡ്ജി ആണ് മികച്ചത് എന്ന് ചോദിക്കുന്നത് നിർത്തുക. മനുഷ്യർ നൽകുന്ന ലേബലുകളുമായി താരതമ്യം ചെയ്ത് ഫലങ്ങൾ വേഗത്തിൽ പരിശോധിക്കാൻ സഹായിക്കുന്ന ടൂൾ ഏതാണെന്ന് ചോദിക്കുക.
ഉറവിടം: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca