𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅4 hours ago⏱1 min read

𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Gli strumenti LLM-as-judge alimentano la maggior parte delle classifiche e dei post di valutazione odierni.

Otto nuovi studi di giugno 2026 mostrano un problema enorme. Questi studi rivelano che i giudici AI spesso non sono d'accordo con se stessi. Agiscono come un lancio di moneta.

I dati mostrano tre fallimenti principali:

• Bassa affidabilità: Uno studio ha testato due giudici OpenAI su 29 task. Hanno ripetuto ogni test 50 volte. I risultati erano così incoerenti che gli autori lo hanno chiamato "The Coin Flip Judge". Un verdetto basato su una singola esecuzione è in gran parte rumore.

• Sensibilità alle risorse computazionali: Le prestazioni del modello cambiano in base alla quantità di calcolo consentita durante il test. Un modello potrebbe apparire scarso in una classifica semplicemente perché il test aveva un limite di token basso. Cambia il budget e la classifica si ribalta.

• Bias del brand: I giudici mostrano una preferenza per nomi ben noti come GPT o Claude. Questo pregiudizio altera i risultati e rende i confronti ingiusti.

Come comportarsi:

Per gli sviluppatori indipendenti: Per ora, evita l'LLM-as-judge. Etichetta 30 output manualmente. Un giudice non verificato crea una falsa sicurezza.
Per i team: Scegli lo strumento che facilita l'etichettatura umana. Gli strumenti contano meno della reale validazione umana.
Per i carichi di lavoro batch: Esegui almeno dai 20 ai 50 tentativi per ogni elemento. Usa il voto di maggioranza per superare il rumore.
Per i product owner: Se un fornitore mostra un vantaggio di meno di 10 punti, assumi che sia un pareggio. Il livello di rumore è troppo alto per fidarsi di piccoli scarti.

Smetti di chiedere quale giudice ottiene il punteggio più alto. Chiediti quale strumento di giudizio ti aiuta a validare rispetto agli umani nel modo più economico.

Fonte: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲