Il punteggio del benchmark LLM di cui hai bisogno non esiste
La maggior parte delle classifiche LLM ti mente.
Il mese scorso ho valutato dei modelli per una pipeline agentica. Avevo bisogno di generazione di codice e ragionamento multi-step. Ho scelto il modello in cima a una classifica popolare. L'ho implementato. È fallito in compiti basilari di utilizzo degli strumenti (tool-use).
Il punteggio in classifica era reale. Ma era anche inutile per il mio lavoro.
I benchmark pubblici testano i modelli in isolamento. In produzione, si utilizzano agenti. Gli agenti chiamano strumenti, cercano sul web ed eseguono codice. I benchmark standard non misurano tutto questo.
I report di LXT mostrano un divario enorme. A febbraio 2026, con l'accesso agli strumenti, i punteggi erano i seguenti:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
Senza l'accesso agli strumenti, questi punteggi crollano. Il divario tra i punteggi con assistenza di strumenti e quelli senza è l'unica metrica che conta per gli agenti.
I modelli che vincono in quiz o test statici spesso falliscono nel scrivere una singola chiamata a una funzione.
Se costruisci agenti, concentrati su queste tre aree:
- Affidabilità delle chiamate agli strumenti (tool call). Il modello formatta correttamente le chiamate in presenza di distrazioni? Riesce a recuperare dagli errori?
- Economia della finestra di contesto. Alcune configurazioni di strumenti costano da 10 a 32 volte più token. Una finestra di contesto ampia è uno spreco se consuma tutto il budget a ogni chiamata.
- Pianificazione multi-step. Il modello riesce a mantenere un piano di 5 passaggi? Molti modelli perdono il filo già al terzo passaggio.
Smetti di usare le classifiche pubbliche come unica guida. Fai invece questo:
• Esegui un mini-benchmark. Usa da 20 a 50 chiamate reali agli strumenti dai tuoi log. Misura l'accuratezza sul tuo schema specifico. • Testa le condizioni di errore. Osserva come si comporta il modello quando uno strumento restituisce un errore o dati vuoti. • Misura il costo per task. Un modello che è il 5% migliore ma 3 volte più costoso è spesso la scelta sbagliata. • Usa classifiche specializzate. Guarda i punteggi di tool-use e di agenti di coding su BenchLM.ai invece delle classifiche generali.
Un modello al terzo posto potrebbe essere perfetto per un singolo prompt. Potrebbe essere un disastro per un agente.
Dedica un pomeriggio a testare i tuoi strumenti. Ti risparmierà una settimana di debugging in seguito.
Come stai valutando i tuoi modelli? Fammi sapere nei commenti.
Community di apprendimento opzionale: https://t.me/GyaanSetuAi