میں نے ایک ویک اینڈ میں اپنے AI ایجنٹ کا ٹوکن بل 62% کم کر دیا
میرا AI ایجنٹ فی ٹاسک $5.40 خرچ کر رہا تھا۔ میں نے ایک ویک اینڈ میں اس لاگت کو کم کر کے $2.05 فی ٹاسک کر دیا۔ میں نے معیار کو متاثر کیے بغیر یہ 62% کمی حاصل کی۔
میں نے یہ کیسے کیا، یہاں تفصیل ہے:
مسئلہ: میرا ایجنٹ ایک ریسرچ لوپ (research loop) چلاتا ہے۔ یہ ویب پر سرچ کرتا ہے، صفحات اسکریپ (scrape) کرتا ہے، اور خلاصے لکھتا ہے۔ یہ تین طریقوں سے ٹوکنز ضائع کر رہا تھا:
- کانٹیکسٹ اسٹفنگ (Context stuffing): میں ماڈل کو پورے 50,000 حروف والے صفحات بھیج رہا تھا۔ مجھے صرف 2,000 حروف کی ضرورت تھی۔ میں ایک سوئی ڈھونڈنے کے لیے پورے گھاس کے ڈھیر کی قیمت ادا کر رہا تھا۔
- طویل پرامپٹس (Verbose prompts): میرے سسٹم پرامپٹس میں ایک ہی ہدایات تین بار دہرائی جاتی تھیں۔ میں ماڈل کو ہر بار اپنے ہی الفاظ دوبارہ پڑھنے کے پیسے دے رہا تھا۔
- مہنگے ماڈلز کا ضرورت سے زیادہ استعمال: میں ایک پیراگراف کا خلاصہ کرنے جیسے سادہ کاموں کے لیے بھی ہائی ٹیر ریزننگ ماڈلز (high-tier reasoning models) استعمال کر رہا تھا۔
حل:
بھیجنے سے پہلے فلٹر کریں پورے صفحات بھیجنے کے بجائے، اب میں ٹیکسٹ کو ٹکڑوں (chunks) میں تقسیم کرتا ہوں۔ میں پہلے متعلقہ حصے تلاش کرتا ہوں، پھر صرف وہی حصے ماڈل کو بھیجتا ہوں۔ اس سے فی صفحہ ان پٹ ٹوکنز 12,500 سے کم ہو کر 3,200 رہ گئے۔
سسٹم پرامپٹ کو مختصر کریں میں نے غیر ضروری ہدایات حذف کر دیں۔ میں نے ان ٹول کی تفصیلات ہٹا دیں جنہیں ماڈل پہلے سے جانتا ہے۔ میں نے "think step-by-step" جیسے عام جملے استعمال کرنا بند کر دیے کیونکہ جدید ماڈلز یہ کام پہلے سے ہی کرتے ہیں۔
ٹائیرڈ ماڈل روٹنگ (Tiered model routing) میں نے ہر کام کے لیے ایک ہی ماڈل استعمال کرنا بند کر دیا۔ میں نے کاموں کو تین سطحوں میں تقسیم کر دیا:
- Extraction: ایک سستا اور چھوٹا ماڈل استعمال کریں۔
- Synthesis: ایک ہائی ٹیر ریزننگ ماڈل استعمال کریں۔
- Formatting: ایک سستا اور چھوٹا ماڈل استعمال کریں۔
50 ٹاسک کے ٹیسٹ کے نتائج:
- فی ٹاسک لاگت: $5.40 سے $2.05
- لیٹنسی (Latency): 41s سے 28s
- سائٹیشن کوریج (Citation coverage): 67% سے 89%
ایجنٹ زیادہ ذہین نہیں ہوا، بلکہ پائپ لائن (pipeline) محض زیادہ مؤثر ہو گئی ہے۔
آپ کے پروڈکشن ایجنٹس کے لیے تین اسباق:
- ٹوکن کا ایک سخت بجٹ مقرر کریں۔ اگر ٹاسک حد سے تجاوز کرے تو اسے روک دیں۔
- اپنے نتائج کو کیش (cache) کریں۔ ایک ہی URL کو دوبارہ اسکریپ نہ کریں۔
- ہر چیز کا لاگ (log) رکھیں۔ آپ کو بالکل معلوم ہونا چاہیے کہ کس مرحلے پر سب سے زیادہ خرچہ ہو رہا ہے۔
جب معیار کم ہو رہا ہو تو بڑے ماڈلز کی طرف بھاگنا بند کریں۔ مختصر اور درست کانٹیکسٹ کے ساتھ چھوٹے ماڈلز کا استعمال شروع کریں۔
ماخذ: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi