Siz Daha Tek Bir Kelime Yazmadan MCP Sunucularınız Token Yakıyor
Hiç kullanmadığınız veriler için ödeme yapıyorsunuz.
Geçen hafta bir ajan oturumunu takip ettim. İçinde 47 MCP aracı yüklüydü. Her araç, tam JSON şemasını sistem istemine (system prompt) gönderiyordu. Bu, ben daha tek bir kelime bile yazmadan gerçekleşiyordu.
Her araç şeması 150 ila 400 token kullanıyor. 47 araç, bana 11.000 tokenlık bir ek yük (overhead) maliyeti çıkardı. Model, bu tokenları her bir adımda (turn) tekrar okuyor. Sadece iki araç kullansanız bile bu bağlam (context) için ödeme yapıyorsunuz.
Çoğu insan büyük dosya yüklemeleri konusunda endişeleniyor. Ancak araç menüsünün kendi maliyetini unutuyorlar.
GitHub, Slack ve veritabanları gibi sunucuları üst üste eklediğinizde, elinizde 60 ila 100 araç oluyor. Araç tanımlarının tüm bağlam bütçesinin %20'sini kapladığı oturumlar gördüm.
Her şeyi aynı anda yüklemeyi bırakın. Bunun yerine ertelenmiş yükleme (deferred loading) kullanın.
İşte yöntem: • Araçları yalnızca isimleri ve kısa bir açıklama ile listeleyin. • Tam şemaları talep üzerine (on demand) getirmek için bir arama aracı kullanın.
Her araç için devasa bir JSON nesnesi enjekte etmek yerine, basit bir isim sunarsınız. Model belirli bir araca ihtiyaç duyduğunda bir arama fonksiyonunu çağırır. Bu fonksiyon, yalnızca eşleşen araçlar için tam şemayı döndürür.
Sonuçlar muazzam: • 80 aracın eager loading ile yüklenmesi: ~18.000 token. • 80 aracın deferred loading ile yüklenmesi: ~1.000 token.
Bu, araç tanımlarını büyük bir giderden, ihmal edilebilir bir tutara dönüştürür.
Bu strateji işe yarıyor çünkü çoğu oturum, mevcut araçların yalnızca küçük bir kısmını kullanıyor. Eğer bir oturumdaki her aracı kullanırsanız maliyet aynı kalır. Ancak çoğu kullanıcı için bu, devasa miktarda bağlam tasarrufu sağlar.
Modelin hangi araçları çağırması gerektiğini sormayın. Modelin varsayılan olarak nelerin var olduğunu bilmesi gerektiğini sorun.
Çoğu katalog, kolay olduğu için her şeyi bir kerede sunar. Bu aynı zamanda, kimsenin okumadığı bir menü için bütçenizi yakmanın en hızlı yoludur.
Basit tutun. Bir isim, bir açıklama ve bir arama fonksiyonu sağlayın. Görmezden geldiğiniz seksen araç için değil, kullandığınız üç araç için ödeme yapın.
Kaynak: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi
