𝗠𝗖𝗣 𝗗𝗶𝗿𝘁𝘆 𝗦𝗲𝗰𝗿𝗲𝘁: 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀
Ejen AI anda membayar cukai tersembunyi setiap kali ia memanggil pelayan MCP. Cukai ini bukan dalam bentuk dolar. Ia adalah dalam bentuk token.
Jika anda menjalankan ejen pada skala besar, kos ini akan meningkat dengan pantas. Saya menjejaki penggunaan token saya dan melihat lonjakan yang besar. Masalahnya bukan pada penaakulan model. Masalahnya adalah beban konteks (context overhead).
Apabila anda menyambungkan ejen ke pelayan MCP, pelayan tersebut akan menghantar definisi alatan (tool definitions) ke dalam prompt sistem. Ini termasuk setiap parameter dan penerangan.
Jika anda menggunakan lima pelayan MCP dengan 20 alatan setiap satu, anda menambah sehingga 15,000 token pada setiap pusingan (turn). Ini berlaku sebelum model sempat memberikan jawapan.
Berikut adalah data daripada ujian perbualan 10 pusingan:
• Tanpa MCP: 2,400 token setiap pusingan • 3 pelayan MCP: 18,700 token setiap pusingan • 5 pelayan MCP: 31,200 token setiap pusingan
Pada harga semasa, sebuah pasukan yang menjalankan 50 perbualan sehari dengan 5 pelayan boleh membelanjakan $23,400 sebulan hanya untuk beban MCP sahaja.
Ini menyebabkan dua masalah utama:
- Kualiti merosot. Apabila skema alatan mengambil 40% daripada tetingkap konteks (context window) anda, model mempunyai ruang yang lebih kecil untuk sejarah perbualan. Model mula melupakan perkara kerana kehabisan ruang.
- Kos adalah tetap. Anda membayar harga penuh untuk prompt sistem ini pada setiap pusingan.
Berikut adalah tiga cara untuk mengatasinya:
Gunakan Gateway Jangan muat naik semua definisi alatan sekaligus. Gunakan gateway untuk menyuntik (inject) hanya alatan yang diperlukan untuk tugasan semasa. Ini boleh mengurangkan beban daripada 8,000 token kepada 400 token bagi setiap panggilan.
Gunakan Intent Classifier Jalankan panggilan model yang murah terlebih dahulu untuk menentukan pelayan mana yang relevan. Kos yang kecil untuk pengelas (classifier) boleh mengurangkan beban MCP anda sebanyak 60% hingga 80%.
Mampatkan Skema Anda Skema MCP menggunakan banyak perkataan. Ringkaskan penerangan kepada kata nama penting sahaja. Buang medan contoh (example fields). Saya mendapati bahawa skema 400-token berfungsi dengan sempurna pada 120 token jika anda memudahkan teks tersebut.
Berhenti menganggap konteks sebagai tanpa had. Bajet konteks adalah infrastruktur. Uruskannya seperti kos sebenar.
Bagaimanakah anda mengendalikan beban MCP dalam ejen produksi anda? Beritahu saya di ruangan komen.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi