𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

ഇന്ന് മിക്കവാറും എല്ലാ ലീഡർബോർഡുകളും (leaderboard) റിവാർഡ് മോഡലുകളും പ്രവർത്തിപ്പിക്കുന്നത് LLM-as-Judge ആണ്. 2026 ജൂണിലെ എട്ട് പുതിയ പഠനങ്ങൾ വലിയൊരു പ്രശ്നം ചൂണ്ടിക്കാണിക്കുന്നു. ഈ ജഡ്ജിമാർ പലപ്പോഴും വിശ്വസനീയമല്ല.

ഏറ്റവും പ്രധാനപ്പെട്ട കണ്ടെത്തൽ: ഒരു നാണയം എറിയുന്നതുപോലെ തന്നെ പലപ്പോഴും ജഡ്ജിമാർ സ്വന്തം തീരുമാനങ്ങളിൽ തന്നെ വിയോജിക്കുന്നു. ഒരു പഠനത്തിൽ 29 ടാസ്ക്കുകൾക്കായി രണ്ട് OpenAI ജഡ്ജിമാരെ ഉപയോഗിച്ചു. ഓരോന്നിനും 50 തവണ വീതം പരീക്ഷണങ്ങൾ നടത്തി. ഫലങ്ങൾ അത്രത്തോളം അസ്ഥിരമായതിനാൽ ഗവേഷകർ ഇതിനെ "The Coin Flip Judge" എന്ന് വിളിച്ചു.

ഈ ജഡ്ജിമാർ പരാജയപ്പെടുന്ന പ്രധാന രീതികൾ താഴെ പറയുന്നവയാണ്:

നിങ്ങൾ എങ്ങനെ പ്രവർത്തിക്കണം:

ഏത് ജഡ്ജി ആണ് മികച്ചത് എന്ന് ചോദിക്കുന്നത് നിർത്തുക. മനുഷ്യർ നൽകുന്ന ലേബലുകളുമായി താരതമ്യം ചെയ്ത് ഫലങ്ങൾ വേഗത്തിൽ പരിശോധിക്കാൻ സഹായിക്കുന്ന ടൂൾ ഏതാണെന്ന് ചോദിക്കുക.

ഉറവിടം: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca