Het vuile geheim van MCP: Je agent verbrandt tokens
Je AI-agent betaalt een verborgen belasting elke keer dat hij een MCP-server aanroept. Deze belasting is niet in dollars, maar in tokens.
Als je agents op schaal draait, stijgen deze kosten snel. Ik heb mijn tokenverbruik gevolgd en enorme pieken gezien. Het probleem is niet het redeneren van het model. Het probleem is de context-overhead.
Wanneer je een agent verbindt met een MCP-server, stuurt de server tool-definities naar de system prompt. Deze bevatten elke parameter en beschrijving.
Als je vijf MCP-servers gebruikt met elk 20 tools, voeg je tot wel 15.000 tokens toe aan elke beurt. Dit gebeurt nog voordat het model überhaupt iets zegt.
Hier zijn de gegevens van een test met een gesprek van 10 beurten:
• Geen MCP: 2.400 tokens per beurt • 3 MCP-servers: 18.700 tokens per beurt • 5 MCP-servers: 31.200 tokens per beurt
Tegen de huidige prijzen zou een team dat 50 gesprekken per dag voert met 5 servers, $23.400 per maand kunnen uitgeven aan alleen al de MCP-overhead.
Dit veroorzaakt twee hoofpproblemen:
- De kwaliteit daalt. Wanneer tool-schema's 40% van je context window innemen, heeft het model minder ruimte voor de geschiedenis. Het model begint dingen te vergeten omdat de ruimte opraakt.
- De kosten zijn vast. Je betaalt elke beurt de volle prijs voor deze system prompts.
Hier zijn drie manieren om dit op te lossen:
Gebruik een gateway Laad niet alle tool-definities tegelijk. Gebruik een gateway om alleen de tools te injecteren die nodig zijn voor de huidige taak. Dit kan de overhead verlagen van 8.000 tokens naar 400 tokens per aanroep.
Gebruik een intent classifier Voer eerst een goedkope model-aanroep uit om te bepalen welke server relevant is. Een minimale kostenpost voor een classifier kan je MCP-overhead met 60% tot 80% verminderen.
Comprimeer je schema's MCP-schema's gebruiken veel woorden. Beperk beschrijvingen tot essentiële zelfstandige naamwoorden. Verwijder voorbeeldvelden. Ik ontdekte dat een schema van 400 tokens perfect werkt met 120 tokens als je de tekst vereenvoudigt.
Stop met het behandelen van context als iets onbeperkt. Een contextbudget is infrastructuur. Beheer het als een echte kostenpost.
Hoe ga jij om met MCP-overhead in je productie-agents? Laat het me weten in de reacties.
Optionele leercommunity: https://t.me/GyaanSetuAi