𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Gli strumenti LLM-as-judge alimentano la maggior parte delle classifiche e dei post di valutazione odierni.

Otto nuovi studi di giugno 2026 mostrano un problema enorme. Questi studi rivelano che i giudici AI spesso non sono d'accordo con se stessi. Agiscono come un lancio di moneta.

I dati mostrano tre fallimenti principali:

• Bassa affidabilità: Uno studio ha testato due giudici OpenAI su 29 task. Hanno ripetuto ogni test 50 volte. I risultati erano così incoerenti che gli autori lo hanno chiamato "The Coin Flip Judge". Un verdetto basato su una singola esecuzione è in gran parte rumore.

• Sensibilità alle risorse computazionali: Le prestazioni del modello cambiano in base alla quantità di calcolo consentita durante il test. Un modello potrebbe apparire scarso in una classifica semplicemente perché il test aveva un limite di token basso. Cambia il budget e la classifica si ribalta.

• Bias del brand: I giudici mostrano una preferenza per nomi ben noti come GPT o Claude. Questo pregiudizio altera i risultati e rende i confronti ingiusti.

Come comportarsi:

Smetti di chiedere quale giudice ottiene il punteggio più alto. Chiediti quale strumento di giudizio ti aiuta a validare rispetto agli umani nel modo più economico.

Fonte: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca