𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲
Gli strumenti LLM-as-judge alimentano la maggior parte delle classifiche e dei post di valutazione odierni.
Otto nuovi studi di giugno 2026 mostrano un problema enorme. Questi studi rivelano che i giudici AI spesso non sono d'accordo con se stessi. Agiscono come un lancio di moneta.
I dati mostrano tre fallimenti principali:
• Bassa affidabilità: Uno studio ha testato due giudici OpenAI su 29 task. Hanno ripetuto ogni test 50 volte. I risultati erano così incoerenti che gli autori lo hanno chiamato "The Coin Flip Judge". Un verdetto basato su una singola esecuzione è in gran parte rumore.
• Sensibilità alle risorse computazionali: Le prestazioni del modello cambiano in base alla quantità di calcolo consentita durante il test. Un modello potrebbe apparire scarso in una classifica semplicemente perché il test aveva un limite di token basso. Cambia il budget e la classifica si ribalta.
• Bias del brand: I giudici mostrano una preferenza per nomi ben noti come GPT o Claude. Questo pregiudizio altera i risultati e rende i confronti ingiusti.
Come comportarsi:
Per gli sviluppatori indipendenti: Per ora, evita l'LLM-as-judge. Etichetta 30 output manualmente. Un giudice non verificato crea una falsa sicurezza.
Per i team: Scegli lo strumento che facilita l'etichettatura umana. Gli strumenti contano meno della reale validazione umana.
Per i carichi di lavoro batch: Esegui almeno dai 20 ai 50 tentativi per ogni elemento. Usa il voto di maggioranza per superare il rumore.
Per i product owner: Se un fornitore mostra un vantaggio di meno di 10 punti, assumi che sia un pareggio. Il livello di rumore è troppo alto per fidarsi di piccoli scarti.
Smetti di chiedere quale giudice ottiene il punteggio più alto. Chiediti quale strumento di giudizio ti aiuta a validare rispetto agli umani nel modo più economico.
Fonte: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca