Ваші MCP-сервери спалюють токени ще до того, як ви введете хоча б одне слово
Ви платите за дані, які ніколи не використовуєте.
Минулого тижня я відстежував одну сесію агента. У неї було завантажено 47 інструментів MCP. Кожен інструмент надсилав свою повну JSON-схему в системний промпт. Це відбувалося ще до того, як я ввів хоча б одне слово.
Кожна схема інструмента використовує від 150 до 400 токенів. 47 інструментів коштували мені 11 000 токенів накладних витрат. Модель зчитує ці токени під час кожного кроку. Ви платите за цей контекст, навіть якщо використовуєте лише два інструменти.
Більшість людей хвилюються через завантаження великих файлів. Вони забувають про вартість самого меню інструментів.
Коли ви підключаєте такі сервери, як GitHub, Slack та бази даних, у вас з'являється від 60 до 100 інструментів. Я бачив сесії, де визначення інструментів займали 20% усього бюджету контексту.
Припиніть завантажувати все одразу. Замість цього використовуйте відкладене завантаження (deferred loading).
Ось цей патерн: • Перелічуйте інструменти лише за назвою та коротким описом. • Використовуйте інструмент пошуку, щоб отримувати повні схеми за запитом.
Замість того, щоб вставляти масивний JSON-об'єкт для кожного інструмента, ви надаєте просту назву. Коли моделі потрібен конкретний інструмент, вона викликає функцію пошуку. Ця функція повертає повну схему лише для відповідних інструментів.
Результати вражають: • Негайне завантаження (eager loading) 80 інструментів: ~18 000 токенів. • Відкладене завантаження (deferred loading) 80 інструментів: ~1 000 токенів.
Це перетворює визначення інструментів із великої статті витрат на незначну похибку округлення.
Ця стратегія працює тому, що в більшості сесій використовується лише мала частина доступних інструментів. Якщо ви використовуєте кожен інструмент у сесії, вартість залишиться незмінною. Але для більшості користувачів це заощаджує величезні обсяги контексту.
Не питайте, які інструменти моделі потрібно викликати. Питайте, про існування яких інструментів модель має знати за замовчуванням.
Більшість каталогів надають усе одразу, бо це просто. Але це також найшвидший спосіб спалити свій бюджет на меню, яке ніхто не читає.
Будьте простими. Надайте назву, опис та функцію пошуку. Платіть за три інструменти, які ви використовуєте, а не за вісімдесят, які ви ігноруєте.
Source: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076
Optional learning community: https://t.me/GyaanSetuAi
