Uthabiti wa LLM-as-Judge katika 2026

LLM-as-Judge inaendesha karibu kila leaderboard na reward model leo. Tafiti mpya nane za Juni 2026 zinaonyesha tatizo kubwa. Hawa waamuzi mara nyingi hawategemeki.

Ugunduzi mkubwa zaidi: waamuzi hawakubaliani wenyewe mara nyingi kama vile kutupa sarafu. Tafiti moja ilitumia waamuzi wawili wa OpenAI kwenye kazi 29. Walifanya majaribio 50 kwa kila moja. Matokeo yalikuwa yasiyolingana kiasi kwamba watafiti waliita "The Coin Flip Judge."

Hizi hapa ndizo njia kuu ambazo waamuzi hawa hushindwa:

Unapaswa kufanya nini:

Acha kuuliza ni muamuzi gani bora zaidi. Uliza ni zana gani inakusaidia kuhakiki matokeo dhidi ya lebo za kibinadamu kwa haraka zaidi.

Chanzo: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca