𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

آپ نے ایک کوڈنگ ایجنٹ تعینات کیا ہے۔ یہ ٹکٹس لیتا ہے اور PRs فائل کرتا ہے۔ یہ اچھی طرح کام کرتا ہے۔

پھر بل آ جاتا ہے۔

ایجنٹ نے آپ کی منصوبہ بندی سے زیادہ رقم خرچ کر دی۔ آپ کو معلوم نہیں کہ کیوں۔ یہ ہر ٹکٹ پر ماڈل کو 50 بار کال کرتا ہے۔ کچھ کالز سست ری ٹرائیز (retries) ہوتی ہیں۔ کچھ ایک ہی سیاق و سباق (context) کے غیر ضروری ریڈز ہوتے ہیں۔

یہ ماڈل کا مسئلہ نہیں ہے۔ یہ انفراسٹرکچر کا مسئلہ ہے۔ آپ کی ٹیم کے پاس اخراجات کی شفافیت (visibility) کی کمی ہے۔ آپ کے پاس کسی بے قابو ایجنٹ کو آپ کا بجٹ ختم کرنے سے پہلے روکنے کا کوئی طریقہ نہیں ہے۔

ایجنٹس لوپس (loops) ہوتے ہیں۔ وہ ایک ٹاسک پڑھتے ہیں، ایک ٹول کال کرتے ہیں، آؤٹ پٹ پڑھتے ہیں، اور یہی عمل دہراتے ہیں۔ ہر مرحلے پر ٹوکنز کا خرچ ہوتا ہے۔ اگر کوئی ایجنٹ ہر بار سسٹم پرامپٹ (system prompt) کو دوبارہ پڑھتا ہے، تو لاگت تیزی سے بڑھتی ہے۔ ایک چھوٹا سا بگ سینکڑوں اضافی ریڈز کا باعث بنتا ہے۔

آپ بل دیکھتے ہیں، کالز نہیں۔ یہ بہت دیر ہو چکی ہوتی ہے۔

کامیاب ٹیمیں پہلے دن سے ہی لاگت پر کنٹرول (cost controls) بناتی ہیں۔ وہ ان طریقوں کا استعمال کرتی ہیں:

پروڈکشن میں ایجنٹس چلانے کے لیے، آپ کو ضرورت ہے:

اگر آپ یہ چیزیں نظر انداز کرتے ہیں، تو آپ اندھیرے میں کام کر رہے ہوتے ہیں۔

LiteLLM اس سے بچنے کے لیے ایک مخصوص پیٹرن استعمال کرتا ہے:

اگر آپ ان ٹولز کے بغیر ایجنٹس بناتے ہیں، تو آپ کو لاگت کے دھماکے (cost explosion) کا سامنا کرنا پڑتا ہے۔ ایجنٹ تب تک ٹھیک کام کرتا ہے جب تک کہ وہ کسی ایج کیس (edge case) یا لوپ میں نہ پھنس جائے۔ تب تک، رقم ختم ہو چکی ہوتی ہے۔

ابھی یہ اقدامات اٹھائیں:

ایسا انفراسٹرکچر بنائیں جو قابل اعتماد ایجنٹس کو مہنگی غلطیوں سے الگ کرے۔

Source: https://dev.to/paultwist/why-your-agents-are-silently-burning-tokens-and-how-to-stop-them-7g8

Optional learning community: https://t.me/GyaanSetuAi