آپ کے MCP سرورز ایک لفظ لکھنے سے پہلے ہی ٹوکنز ضائع کر رہے ہیں

آپ اس ڈیٹا کے پیسے دے رہے ہیں جسے آپ کبھی استعمال نہیں کرتے۔

میں نے گزشتہ ہفتے ایک ایجنٹ سیشن کو ٹریک کیا۔ اس میں 47 MCP ٹولز لوڈ تھے۔ ہر ٹول نے اپنا مکمل JSON schema سسٹم پرامپٹ (system prompt) میں بھیج دیا۔ یہ سب میرے ایک لفظ لکھنے سے پہلے ہی ہو گیا۔

ہر ٹول schema 150 سے 400 ٹوکنز استعمال کرتا ہے۔ 47 ٹولز کی وجہ سے مجھے 11,000 ٹوکنز کا اضافی بوجھ (overhead) اٹھانا پڑا۔ ماڈل ہر مرحلے پر ان ٹوکنز کو پڑھتا ہے۔ آپ اس سیاق و سباق (context) کے پیسے دیتے ہیں چاہے آپ صرف دو ٹولز ہی کیوں نہ استعمال کریں۔

زیادہ تر لوگ بڑی فائل اپ لوڈ کرنے کے بارے میں فکر مند ہوتے ہیں۔ وہ خود ٹول مینو کی لاگت کو بھول جاتے ہیں۔

جب آپ GitHub، Slack، اور ڈیٹا بیسز جیسے سرورز کو ایک ساتھ جوڑتے ہیں، تو آپ کے پاس 60 سے 100 ٹولز ہو جاتے ہیں۔ میں نے ایسے سیشنز دیکھے ہیں جہاں ٹول کی تعریفیں (tool definitions) پورے سیاق و سباق کے بجٹ کا 20% حصہ لے لیتی ہیں۔

سب کچھ ایک ساتھ لوڈ کرنا بند کریں۔ اس کے بجائے deferred loading کا استعمال کریں۔

یہ رہا طریقہ کار: • ٹولز کو صرف نام اور مختصر تفصیل کے ساتھ فہرست میں شامل کریں۔ • ضرورت پڑنے پر مکمل schema حاصل کرنے کے لیے سرچ ٹول کا استعمال کریں۔

ہر ٹول کے لیے ایک بہت بڑا JSON آبجیکٹ شامل کرنے کے بجائے، آپ صرف ایک سادہ نام فراہم کرتے ہیں۔ جب ماڈل کو کسی مخصوص ٹول کی ضرورت ہوتی ہے، تو وہ سرچ فنکشن کو کال کرتا ہے۔ وہ فنکشن صرف متعلقہ ٹولز کے لیے مکمل schema واپس کرتا ہے۔

نتائج بہت بڑے ہیں: • 80 ٹولز کی Eager loading: ~18,000 ٹوکنز۔ • 80 ٹولز کی Deferred loading: ~1,000 ٹوکنز۔

یہ ٹول کی تعریفوں کو ایک بڑے اخراجات سے بدل کر ایک معمولی رقم (rounding error) بنا دیتا ہے۔

یہ حکمت عملی اس لیے کام کرتی ہے کیونکہ زیادہ تر سیشنز میں دستیاب ٹولز کا صرف ایک چھوٹا سا حصہ استعمال ہوتا ہے۔ اگر آپ سیشن میں ہر ٹول استعمال کرتے ہیں، تو لاگت وہی رہے گی۔ لیکن زیادہ تر صارفین کے لیے، یہ سیاق و سباق (context) کی بڑی مقدار بچاتا ہے۔

یہ نہ پوچھیں کہ ماڈل کو کن ٹولز کو کال کرنے کی ضرورت ہے۔ یہ پوچھیں کہ ماڈل کو ڈیفالٹ طور پر کن چیزوں کے موجود ہونے کا علم ہونا چاہیے۔

زیادہ تر کیٹلاگ سب کچھ ایک ساتھ فراہم کرتے ہیں کیونکہ یہ آسان ہے۔ یہ ایک ایسے مینو پر اپنا بجٹ جلانے کا تیز ترین طریقہ بھی ہے جسے کوئی نہیں پڑھتا۔

اسے سادہ رکھیں۔ ایک نام، ایک تفصیل، اور ایک سرچ فنکشن فراہم کریں۔ ان تین ٹولز کے پیسے دیں جنہیں آپ استعمال کرتے ہیں، نہ کہ ان اسی ٹولز کے جنہیں آپ نظر انداز کرتے ہیں۔

Source: https://dev.to/enjoy_kumawat/your-mcp-servers-are-burning-tokens-before-you-type-a-word-3076

Optional learning community: https://t.me/GyaanSetuAi