Twoje serwery MCP spalają tokeny, zanim napiszesz choćby jedno słowo
Płacisz za dane, których nigdy nie używasz.
W zeszłym tygodniu śledziłem jedną sesję agenta. Miała załadowanych 47 narzędzi MCP. Każde narzędzie przesyłało swój pełny schemat JSON do promptu systemowego. Działo się to, zanim wpisałem choćby jedno słowo.
Każdy schemat narzędzia zużywa od 150 do 400 tokenów. 47 narzędzi kosztowało mnie 11 000 tokenów narzutu. Model odczytuje te tokeny przy każdej turze. Płacisz za ten kontekst, nawet jeśli używasz tylko dwóch narzędzi.
Większość ludzi martwi się o przesyłanie dużych plików. Zapominają o koszcie samego menu narzędzi.
Gdy nakładasz na siebie serwery takie jak GitHub, Slack i bazy danych, kończysz z 60–100 narzędziami. Widziałem sesje, w których definicje narzędzi zajmowały 20% całego budżetu kontekstu.
Przestań ładować wszystko naraz. Zamiast tego zastosuj ładowanie odroczone (deferred loading).
Oto wzorzec: • Wymień narzędzia tylko po nazwie i krótkim opisie. • Użyj narzędzia wyszukiwania, aby pobierać pełne schematy na żądanie.
Zamiast wstrzykiwać ogromny obiekt JSON dla każdego narzędzia, podajesz prostą nazwę. Gdy model potrzebuje konkretnego narzędzia, wywołuje funkcję wyszukiwania. Funkcja ta zwraca pełny schemat tylko dla pasujących narzędzi.
Wyniki są kolosalne: • Ładowanie natychmiastowe (eager loading) 80 narzędzi: ~18 000 tokenów. • Ładowanie odroczone (deferred loading) 80 narzędzi: ~1 000 tokenów.
To zmienia definicje narzędzi z głównego wydatku w błąd zaokrąglenia.
Ta strategia działa, ponieważ większość sesji wykorzystuje tylko niewielką część dostępnych narzędzi. Jeśli użyjesz każdego narzędzia w sesji, koszt pozostanie taki sam. Jednak dla większości użytkowników pozwala to zaoszczędzić ogromne ilości kontekstu.
Nie pytaj, jakich narzędzi model musi użyć. Zapytaj, o istnieniu jakich narzędzi model musi wiedzieć domyślnie.
Większość katalogów udostępnia wszystko naraz, bo tak jest łatwiej. To także najszybszy sposób na przepalenie budżetu na menu, którego nikt nie czyta.
Postaw na prostotę. Podaj nazwę, opis i funkcję wyszukiwania. Płać za trzy narzędzia, których używasz, a nie za osiemdziesiąt, które ignorujesz.
Źródło: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi
