𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀
آپ نے ایک کوڈنگ ایجنٹ تعینات کیا ہے۔ یہ ٹکٹس لیتا ہے اور PRs فائل کرتا ہے۔ یہ اچھی طرح کام کرتا ہے۔
پھر بل آ جاتا ہے۔
ایجنٹ نے آپ کی منصوبہ بندی سے زیادہ رقم خرچ کر دی۔ آپ کو معلوم نہیں کہ کیوں۔ یہ ہر ٹکٹ پر ماڈل کو 50 بار کال کرتا ہے۔ کچھ کالز سست ری ٹرائیز (retries) ہوتی ہیں۔ کچھ ایک ہی سیاق و سباق (context) کے غیر ضروری ریڈز ہوتے ہیں۔
یہ ماڈل کا مسئلہ نہیں ہے۔ یہ انفراسٹرکچر کا مسئلہ ہے۔ آپ کی ٹیم کے پاس اخراجات کی شفافیت (visibility) کی کمی ہے۔ آپ کے پاس کسی بے قابو ایجنٹ کو آپ کا بجٹ ختم کرنے سے پہلے روکنے کا کوئی طریقہ نہیں ہے۔
ایجنٹس لوپس (loops) ہوتے ہیں۔ وہ ایک ٹاسک پڑھتے ہیں، ایک ٹول کال کرتے ہیں، آؤٹ پٹ پڑھتے ہیں، اور یہی عمل دہراتے ہیں۔ ہر مرحلے پر ٹوکنز کا خرچ ہوتا ہے۔ اگر کوئی ایجنٹ ہر بار سسٹم پرامپٹ (system prompt) کو دوبارہ پڑھتا ہے، تو لاگت تیزی سے بڑھتی ہے۔ ایک چھوٹا سا بگ سینکڑوں اضافی ریڈز کا باعث بنتا ہے۔
آپ بل دیکھتے ہیں، کالز نہیں۔ یہ بہت دیر ہو چکی ہوتی ہے۔
کامیاب ٹیمیں پہلے دن سے ہی لاگت پر کنٹرول (cost controls) بناتی ہیں۔ وہ ان طریقوں کا استعمال کرتی ہیں:
- ماہانہ بجٹ کی حد (ceilings) مقرر کریں۔
- لاگ کریں کہ کس ایجنٹ اور کس ٹاسک نے ہر کال کو ٹرگر کیا۔
- اس بات کا جواب دیں کہ ایک ٹاسک کی لاگت دوسرے سے زیادہ کیوں تھی۔
پروڈکشن میں ایجنٹس چلانے کے لیے، آپ کو ضرورت ہے:
- فی ایجنٹ ٹریکنگ: فی صارف اور فی ٹاسک لاگت کو جانیں۔
- ورچوئل کیز (Virtual keys): ٹیموں کو الگ کریں تاکہ ایک ڈویلپر پورا بجٹ ختم نہ کر سکے۔
- بجٹ کنٹرولز: سخت حدود مقرر کریں۔ جب ایجنٹ حد تک پہنچ جائے تو اسے آپ کو الرٹ کرنا چاہیے یا ٹاسک لینا بند کر دینا چاہیے۔
- اخراجات کی ویزیبلٹی: رجحانات اور فی ٹاسک اوسط لاگت دیکھنے کے لیے ڈیش بورڈ کا استعمال کریں۔
- تفصیلی لاگز: کال کی اقسام کی تقسیم دیکھیں۔
اگر آپ یہ چیزیں نظر انداز کرتے ہیں، تو آپ اندھیرے میں کام کر رہے ہوتے ہیں۔
LiteLLM اس سے بچنے کے لیے ایک مخصوص پیٹرن استعمال کرتا ہے:
- برین اور سینڈ باکس (sandbox) کی تقسیم: ریژوننگ (reasoning) ایک جگہ چلتی ہے اور ایگزیکیوشن (execution) دوسری جگہ۔ یہ مسلسل ری-ریڈز کو روکتا ہے۔
- واضح ٹول انٹرفیسز: طویل متن کے بجائے منظم تعریفیں (structured definitions) استعمال کریں۔
- گیٹ وے ٹریکنگ: ہر کال ایجنٹ اور ٹیم کی آئی ڈی کے ساتھ ایک گیٹ وے کے ذریعے روٹ ہوتی ہے۔
- نافذ شدہ بجٹ: ایجنٹ ٹاسک شروع کرنے سے پہلے اپنے باقی بجٹ کو چیک کرتا ہے۔
اگر آپ ان ٹولز کے بغیر ایجنٹس بناتے ہیں، تو آپ کو لاگت کے دھماکے (cost explosion) کا سامنا کرنا پڑتا ہے۔ ایجنٹ تب تک ٹھیک کام کرتا ہے جب تک کہ وہ کسی ایج کیس (edge case) یا لوپ میں نہ پھنس جائے۔ تب تک، رقم ختم ہو چکی ہوتی ہے۔
ابھی یہ اقدامات اٹھائیں:
- اپنے آخری API بل کا آڈٹ کریں۔
- ہر کال کو ایجنٹ آئی ڈی اور ٹاسک آئی ڈی کے ساتھ انسٹرومنٹ (instrument) کریں۔
- آج ہی بجٹ کی حد مقرر کریں۔
- ناکام ری ٹرائیز تلاش کرنے کے لیے ٹول کالز کو لاگ کریں۔
- ہر ہفتے کال پیٹرنز کا جائزہ لیں۔
ایسا انفراسٹرکچر بنائیں جو قابل اعتماد ایجنٹس کو مہنگی غلطیوں سے الگ کرے۔
Source: https://dev.to/paultwist/why-your-agents-are-silently-burning-tokens-and-how-to-stop-them-7g8
Optional learning community: https://t.me/GyaanSetuAi