𝗖𝘂𝗸𝗮𝗶 𝗞𝗼𝗻𝘁𝗲𝗸𝘀 𝗠𝗖𝗣
Ejen AI anda menelan kos lebih tinggi daripada yang anda jangkakan.
Setiap kali ejen memanggil alatan MCP, anda membayar yuran tersembunyi yang besar. Anda berkemungkinan menggunakan 10 hingga 32 kali lebih banyak token berbanding panggilan API terus. Kebanyakan pembangun terlepas pandang perkara ini.
Ekosistem MCP mempunyai 14,000 pelayan dan 97 juta muat turun bulanan. Namun, hanya sedikit tutorial yang menyebut tentang kosnya.
Inilah masalahnya.
Apabila LLM menggunakan alatan MCP, sistem menghantar skema alatan yang lengkap ke dalam tetingkap konteks. Ini termasuk setiap parameter, jenis, dan huraian. Carian fail yang ringkas boleh menggunakan 500 hingga 2,000 token. Jalankan sebanyak 50 kali, dan anda telah menghabiskan 100,000 token untuk metadata sahaja.
Pengiraannya mudah.
Seorang ejen yang membuat 500 panggilan sehari menghabiskan antara 250,000 hingga 8 juta token. Pada harga semasa, satu ejen menelan kos $200 hingga $500 sehari. Ejen yang dioptimumkan hanya menelan kos $6 hingga $50.
Gunakan tiga corak ini untuk mengurangkan kos anda:
Pengecilan skema. Kebanyakan pelayan MCP menggunakan terlalu banyak teks. Ringkaskan skema tersebut. Hantar nama tindakan, parameter yang diperlukan, dan ringkasan satu baris sahaja. Ini mengurangkan kos overhed sebanyak 40% hingga 60%.
Panggilan alatan secara berkelompok (Batch). Jangan buat satu panggilan bagi setiap tindakan. Kumpulkan operasi yang berkaitan ke dalam satu panggilan. Kebanyakan pelayan menyokong tatasusunan (arrays). Ini menyebarkan kos konteks merentasi pelbagai tugasan.
Penyanggaan (Caching) hasil. Jika ejen anda memanggil alatan yang sama dengan input yang sama, gunakan cache. Cache dalam memori (in-memory cache) selama 60 saat dapat menghentikan panggilan yang berulang.
Anggap kos token sebagai metrik utama. Jangan hanya melihat kepada kependaman (latency) atau ketepatan.
Cara untuk berjaya: • Profilkan kos alatan sebelum anda melancarkan pelayan baharu. • Tetapkan bajet token untuk setiap sesi. • Pilih pelayan yang mengembalikan JSON yang padat berbanding teks yang panjang.
Ekosistem MCP adalah kukuh. Ia membolehkan anda menambah keupayaan dalam masa beberapa minit. Namun, cukai konteks itu benar-benar wujud.
Jika anda menjalankan ejen dalam pengeluaran (production), profilkan kos anda. Pengoptimuman adalah perbezaan antara projek yang boleh diskalakan dan projek yang gagal apabila bil tiba.
Ketahui apa yang anda bayar.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi