Je MCP-servers verbranden tokens voordat je ook maar één woord typt

Je betaalt voor data die je nooit gebruikt.

Vorige week heb ik een agentsessie gevolgd. Er waren 47 MCP-tools geladen. Elke tool stuurde zijn volledige JSON-schema naar de system prompt. Dit gebeurde nog voordat ik één woord had getypt.

Elk tool-schema verbruikt 150 tot 400 tokens. 47 tools kostten me 11.000 tokens aan overhead. Het model leest deze tokens bij elke beurt opnieuw. Je betaalt voor deze context, zelfs als je slechts twee tools gebruikt.

De meeste mensen maken zich zorgen over het uploaden van grote bestanden. Ze vergeten de kosten van het tool-menu zelf.

Wanneer je servers zoals GitHub, Slack en databases opstapelt, kom je uit op 60 tot 100 tools. Ik heb sessies gezien waarbij tool-definities 20% van het volledige contextbudget in beslag namen.

Stop met het in één keer laden van alles. Gebruik in plaats daarvan deferred loading.

Dit is het patroon: • Lijst tools alleen op met een naam en een korte beschrijving. • Gebruik een zoektool om volledige schema's op aanvraag op te halen.

In plaats van voor elke tool een enorm JSON-object te injecteren, geef je alleen een eenvoudige naam op. Wanneer het model een specifieke tool nodig heeft, roept het een zoekfunctie aan. Die functie geeft alleen het volledige schema terug voor de overeenkomende tools.

De resultaten zijn enorm: • Eager loading van 80 tools: ~18.000 tokens. • Deferred loading van 80 tools: ~1.000 tokens.

Dit verandert tool-definities van een grote kostenpost in een verwaarloosbaar bedrag.

Deze strategie werkt omdat de meeste sessies slechts een fractie van de beschikbare tools gebruiken. Als je elke tool in een sessie gebruikt, blijven de kosten gelijk. Maar voor de meeste gebruikers bespaart dit enorme hoeveelheden context.

Vraag niet welke tools het model moet aanroepen. Vraag wat het model standaard moet weten dat er bestaat.

De meeste catalogi bieden alles in één keer aan omdat dat makkelijk is. Het is echter ook de snelste manier om je budget te verbranden aan een menu dat niemand leest.

Houd het simpel. Geef een naam, een beschrijving en een zoekfunctie. Betaal voor de drie tools die je gebruikt, niet voor de tachtig tools die je negeert.

Source: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076

Optional learning community: https://t.me/GyaanSetuAi