Tus servidores MCP están quemando tokens antes de que escribas una sola palabra

Estás pagando por datos que nunca utilizas.

La semana pasada rastreé una sesión de agente. Tenía 47 herramientas MCP cargadas. Cada herramienta enviaba su esquema JSON completo al prompt del sistema. Esto sucedía antes de que yo escribiera una sola palabra.

Cada esquema de herramienta utiliza entre 150 y 400 tokens. 47 herramientas me costaron 11,000 tokens en overhead. El modelo lee estos tokens en cada turno. Pagas por este contexto incluso si solo utilizas dos herramientas.

La mayoría de la gente se preocupa por la carga de archivos grandes. Olvidan el coste del propio menú de herramientas.

Cuando apilas servidores como GitHub, Slack y bases de datos, terminas con entre 60 y 100 herramientas. He visto sesiones donde las definiciones de las herramientas ocupaban el 20% de todo el presupuesto de contexto.

Deja de cargarlo todo a la vez. En su lugar, utiliza la carga diferida (deferred loading).

Aquí está el patrón: • Enumera las herramientas solo por nombre y una breve descripción. • Utiliza una herramienta de búsqueda para obtener los esquemas completos bajo demanda.

En lugar de inyectar un objeto JSON masivo para cada herramienta, proporcionas un nombre sencillo. Cuando el modelo necesita una herramienta específica, llama a una función de búsqueda. Esa función devuelve el esquema completo solo para las herramientas que coincidan.

Los resultados son masivos: • Carga inmediata (eager loading) de 80 herramientas: ~18,000 tokens. • Carga diferida (deferred loading) de 80 herramientas: ~1,000 tokens.

Esto convierte las definiciones de herramientas de un gasto importante en un error de redondeo.

Esta estrategia funciona porque la mayoría de las sesiones solo utilizan una pequeña fracción de las herramientas disponibles. Si utilizas todas las herramientas en una sesión, el coste sigue siendo el mismo. Pero para la mayoría de los usuarios, esto ahorra cantidades enormes de contexto.

No preguntes qué herramientas necesita llamar el modelo. Pregunta qué necesita saber el modelo que existe por defecto.

La mayoría de los catálogos lo proporcionan todo a la vez porque es fácil. También es la forma más rápida de agotar tu presupuesto en un menú que nadie lee.

Mantenlo simple. Proporciona un nombre, una descripción y una función de búsqueda. Paga por las tres herramientas que utilizas, no por las ochenta que ignoras.

Fuente: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi