A Pontuação de Benchmark de LLM que Você Precisa Não Existe
A maioria dos leaderboards de LLM mente para você.
No mês passado, avaliei modelos para um pipeline de agentes. Eu precisava de geração de código e raciocínio de múltiplas etapas. Escolhi o modelo no topo de um leaderboard popular. Implementei-o. Ele falhou em tarefas básicas de uso de ferramentas.
A pontuação do leaderboard era real. Mas também era inútil para o meu trabalho.
Benchmarks públicos testam modelos isoladamente. Em produção, você executa agentes. Agentes chamam ferramentas, pesquisam na web e executam código. Benchmarks padrão não medem isso.
Relatórios da LXT mostram uma lacuna enorme. Em fevereiro de 2026, com acesso a ferramentas, as pontuações eram assim:
• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%
Sem acesso a ferramentas, essas pontuações caem. A lacuna entre pontuações com assistência de ferramentas e sem ferramentas é a única métrica que importa para agentes.
Modelos que vencem em trivia ou testes estáticos frequentemente falham ao escrever uma única chamada de função.
Se você constrói agentes, foque nestas três áreas:
- Confiabilidade na chamada de ferramentas. O modelo formata as chamadas corretamente sob distração? Ele consegue se recuperar de erros?
- Economia da janela de contexto. Algumas configurações de ferramentas custam de 10x a 32x mais tokens. Uma janela de contexto grande é um desperdício se ela queimar seu orçamento em cada chamada.
- Planejamento de múltiplas etapas. O modelo consegue manter um plano de 5 etapas? Muitos modelos perdem o fio da meada na terceira etapa.
Pare de usar leaderboards públicos como seu único guia. Faça o seguinte em vez disso:
• Execute um mini-benchmark. Use de 20 a 50 chamadas de ferramentas reais dos seus próprios logs. Meça a precisão no seu esquema específico. • Teste condições de erro. Veja como o modelo age quando uma ferramenta retorna um erro ou dados vazios. • Meça o custo por tarefa. Um modelo que é 5% melhor, mas 3x mais caro, costuma ser a escolha errada. • Use leaderboards especializados. Procure pontuações de uso de ferramentas e agentes de codificação no BenchLM.ai em vez de rankings gerais.
Um modelo classificado em #3 pode ser perfeito para um único prompt. Pode ser um desastre para um agente.
Passe uma tarde testando suas próprias ferramentas. Isso economizará uma semana de depuração depois.
Como você está avaliando seus modelos? Conte-me nos comentários.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi