میں نے صرف ایک ویک اینڈ میں اپنے AI ایجنٹ کا ٹوکن بل 62% تک کم کر دیا

Translated for your language. Read the original.

AI-assisted draft.

گزشتہ کل2min read

میں نے ایک ویک اینڈ میں اپنے AI ایجنٹ کا ٹوکن بل 62% کم کر دیا

میرا AI ایجنٹ فی ٹاسک $5.40 خرچ کر رہا تھا۔ میں نے ایک ویک اینڈ میں اس لاگت کو کم کر کے $2.05 فی ٹاسک کر دیا۔ میں نے معیار کو متاثر کیے بغیر یہ 62% کمی حاصل کی۔

میں نے یہ کیسے کیا، یہاں تفصیل ہے:

مسئلہ: میرا ایجنٹ ایک ریسرچ لوپ (research loop) چلاتا ہے۔ یہ ویب پر سرچ کرتا ہے، صفحات اسکریپ (scrape) کرتا ہے، اور خلاصے لکھتا ہے۔ یہ تین طریقوں سے ٹوکنز ضائع کر رہا تھا:

کانٹیکسٹ اسٹفنگ (Context stuffing): میں ماڈل کو پورے 50,000 حروف والے صفحات بھیج رہا تھا۔ مجھے صرف 2,000 حروف کی ضرورت تھی۔ میں ایک سوئی ڈھونڈنے کے لیے پورے گھاس کے ڈھیر کی قیمت ادا کر رہا تھا۔
طویل پرامپٹس (Verbose prompts): میرے سسٹم پرامپٹس میں ایک ہی ہدایات تین بار دہرائی جاتی تھیں۔ میں ماڈل کو ہر بار اپنے ہی الفاظ دوبارہ پڑھنے کے پیسے دے رہا تھا۔
مہنگے ماڈلز کا ضرورت سے زیادہ استعمال: میں ایک پیراگراف کا خلاصہ کرنے جیسے سادہ کاموں کے لیے بھی ہائی ٹیر ریزننگ ماڈلز (high-tier reasoning models) استعمال کر رہا تھا۔

حل:

بھیجنے سے پہلے فلٹر کریں پورے صفحات بھیجنے کے بجائے، اب میں ٹیکسٹ کو ٹکڑوں (chunks) میں تقسیم کرتا ہوں۔ میں پہلے متعلقہ حصے تلاش کرتا ہوں، پھر صرف وہی حصے ماڈل کو بھیجتا ہوں۔ اس سے فی صفحہ ان پٹ ٹوکنز 12,500 سے کم ہو کر 3,200 رہ گئے۔
سسٹم پرامپٹ کو مختصر کریں میں نے غیر ضروری ہدایات حذف کر دیں۔ میں نے ان ٹول کی تفصیلات ہٹا دیں جنہیں ماڈل پہلے سے جانتا ہے۔ میں نے "think step-by-step" جیسے عام جملے استعمال کرنا بند کر دیے کیونکہ جدید ماڈلز یہ کام پہلے سے ہی کرتے ہیں۔
ٹائیرڈ ماڈل روٹنگ (Tiered model routing) میں نے ہر کام کے لیے ایک ہی ماڈل استعمال کرنا بند کر دیا۔ میں نے کاموں کو تین سطحوں میں تقسیم کر دیا:

Extraction: ایک سستا اور چھوٹا ماڈل استعمال کریں۔
Synthesis: ایک ہائی ٹیر ریزننگ ماڈل استعمال کریں۔
Formatting: ایک سستا اور چھوٹا ماڈل استعمال کریں۔

50 ٹاسک کے ٹیسٹ کے نتائج:

فی ٹاسک لاگت: $5.40 سے $2.05
لیٹنسی (Latency): 41s سے 28s
سائٹیشن کوریج (Citation coverage): 67% سے 89%

ایجنٹ زیادہ ذہین نہیں ہوا، بلکہ پائپ لائن (pipeline) محض زیادہ مؤثر ہو گئی ہے۔

آپ کے پروڈکشن ایجنٹس کے لیے تین اسباق:

ٹوکن کا ایک سخت بجٹ مقرر کریں۔ اگر ٹاسک حد سے تجاوز کرے تو اسے روک دیں۔
اپنے نتائج کو کیش (cache) کریں۔ ایک ہی URL کو دوبارہ اسکریپ نہ کریں۔
ہر چیز کا لاگ (log) رکھیں۔ آپ کو بالکل معلوم ہونا چاہیے کہ کس مرحلے پر سب سے زیادہ خرچہ ہو رہا ہے۔

جب معیار کم ہو رہا ہو تو بڑے ماڈلز کی طرف بھاگنا بند کریں۔ مختصر اور درست کانٹیکسٹ کے ساتھ چھوٹے ماڈلز کا استعمال شروع کریں۔

ماخذ: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

میں نے صرف ایک ویک اینڈ میں اپنے AI ایجنٹ کا ٹوکن بل 62% تک کم کر دیا

Continue reading

میں نے اپنے AI API کے اخراجات میں 70% تک کمی کی

ایم سی پی کانٹیکسٹ ٹیکس

میں نے اپنے اے آئی فیچر کو اپنا بٹوا خالی کرنے سے کیسے روکا

99% SLAs برقرار رکھتے ہوئے میں نے اپنے AI API بل کو آدھا کیسے کیا

اپنے اے آئی (AI) بل کو کم کرنے کے 7 طریقے