𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

📅4 hours ago⏱2 min read

Il punteggio del benchmark LLM di cui hai bisogno non esiste

La maggior parte delle classifiche LLM ti mente.

Il mese scorso ho valutato dei modelli per una pipeline agentica. Avevo bisogno di generazione di codice e ragionamento multi-step. Ho scelto il modello in cima a una classifica popolare. L'ho implementato. È fallito in compiti basilari di utilizzo degli strumenti (tool-use).

Il punteggio in classifica era reale. Ma era anche inutile per il mio lavoro.

I benchmark pubblici testano i modelli in isolamento. In produzione, si utilizzano agenti. Gli agenti chiamano strumenti, cercano sul web ed eseguono codice. I benchmark standard non misurano tutto questo.

I report di LXT mostrano un divario enorme. A febbraio 2026, con l'accesso agli strumenti, i punteggi erano i seguenti:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

Senza l'accesso agli strumenti, questi punteggi crollano. Il divario tra i punteggi con assistenza di strumenti e quelli senza è l'unica metrica che conta per gli agenti.

I modelli che vincono in quiz o test statici spesso falliscono nel scrivere una singola chiamata a una funzione.

Se costruisci agenti, concentrati su queste tre aree:

Affidabilità delle chiamate agli strumenti (tool call). Il modello formatta correttamente le chiamate in presenza di distrazioni? Riesce a recuperare dagli errori?
Economia della finestra di contesto. Alcune configurazioni di strumenti costano da 10 a 32 volte più token. Una finestra di contesto ampia è uno spreco se consuma tutto il budget a ogni chiamata.
Pianificazione multi-step. Il modello riesce a mantenere un piano di 5 passaggi? Molti modelli perdono il filo già al terzo passaggio.

Smetti di usare le classifiche pubbliche come unica guida. Fai invece questo:

• Esegui un mini-benchmark. Usa da 20 a 50 chiamate reali agli strumenti dai tuoi log. Misura l'accuratezza sul tuo schema specifico. • Testa le condizioni di errore. Osserva come si comporta il modello quando uno strumento restituisce un errore o dati vuoti. • Misura il costo per task. Un modello che è il 5% migliore ma 3 volte più costoso è spesso la scelta sbagliata. • Usa classifiche specializzate. Guarda i punteggi di tool-use e di agenti di coding su BenchLM.ai invece delle classifiche generali.

Un modello al terzo posto potrebbe essere perfetto per un singolo prompt. Potrebbe essere un disastro per un agente.

Dedica un pomeriggio a testare i tuoi strumenti. Ti risparmierà una settimana di debugging in seguito.

Come stai valutando i tuoi modelli? Fammi sapere nei commenti.

Fonte: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

Il mito del modello più potente

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲