Your MCP Servers Are Burning Tokens Before You Type a Word
Você está pagando por dados que nunca utiliza.
Eu acompanhei uma sessão de agente na semana passada. Ela tinha 47 ferramentas MCP carregadas. Cada ferramenta enviava seu esquema JSON completo para o prompt de sistema. Isso acontecia antes de eu digitar uma única palavra.
Cada esquema de ferramenta utiliza de 150 a 400 tokens. 47 ferramentas me custaram 11.000 tokens de overhead. O modelo lê esses tokens em cada turno. Você paga por esse contexto mesmo que utilize apenas duas ferramentas.
A maioria das pessoas se preocupa com o upload de arquivos grandes. Elas esquecem o custo do próprio menu de ferramentas.
Quando você empilha servidores como GitHub, Slack e bancos de dados, acaba ficando com 60 a 100 ferramentas. Já vi sessões onde as definições de ferramentas ocupavam 20% de todo o orçamento de contexto.
Pare de carregar tudo de uma vez. Use o carregamento adiado (deferred loading) em vez disso.
Aqui está o padrão: • Liste as ferramentas apenas por nome e uma breve descrição. • Use uma ferramenta de busca para buscar os esquemas completos sob demanda.
Em vez de injetar um objeto JSON massivo para cada ferramenta, você fornece um nome simples. Quando o modelo precisa de uma ferramenta específica, ele chama uma função de busca. Essa função retorna o esquema completo apenas para as ferramentas correspondentes.
Os resultados são enormes: • Carregamento imediato (eager loading) de 80 ferramentas: ~18.000 tokens. • Carregamento adiado (deferred loading) de 80 ferramentas: ~1.000 tokens.
Isso transforma as definições de ferramentas de uma despesa principal em um erro de arredondamento.
Essa estratégia funciona porque a maioria das sessões utiliza apenas uma pequena fração das ferramentas disponíveis. Se você usar todas as ferramentas em uma sessão, o custo permanece o mesmo. Mas, para a maioria dos usuários, isso economiza quantidades enormes de contexto.
Não pergunte quais ferramentas o modelo precisa chamar. Pergunte o que o modelo precisa saber que existe por padrão.
A maioria dos catálogos fornece tudo de uma vez porque é fácil. Também é a maneira mais rápida de queimar seu orçamento com um menu que ninguém lê.
Mantenha a simplicidade. Forneça um nome, uma descrição e uma função de busca. Pague pelas três ferramentas que você usa, não pelas oitenta ferramentas que você ignora.
Fonte: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
