میں نے اپنے AI فیچر کو اپنا پرس خالی کرنے سے کیسے روکا
میں نے اپنے سائیڈ پروجیکٹ میں ایک AI چیٹ بوٹ شامل کیا۔ مجھے لگا کہ یہ بہت سادہ ہوگا۔
میں غلط تھا۔
دو ہفتوں کے بعد، میرا OpenAI بل صرف ایک ہفتے کے لیے 87 ڈالر تک پہنچ گیا۔ میرے پاس صرف 50 صارفین تھے۔ میں ایک شوقیہ پروجیکٹ پر پیسے گنوا رہا تھا۔
میں نے اخراجات کو کم کرنے کے لیے کئی طریقے آزمائے۔ کچھ ناکام رہے۔
- ریٹ لمٹنگ (Rate limiting): میں نے درخواستوں کی حد مقرر کر دی۔ صارفین کو یہ پسند نہیں آیا اور وہ چلے گئے۔
- سیاق و سباق کو مختصر کرنا (Truncating context): میں نے ٹوکنز بچانے کے لیے ڈیٹا کم کر دیا۔ جوابات غلط ہونے لگے۔
- سادہ کیشنگ (Simple caching): میں نے بالکل ایک جیسے سوالات کو کیش (cache) کیا۔ صارفین شاذ و نادر ہی ایک ہی چیز دوبارہ بالکل اسی طرح پوچھتے ہیں، اس لیے یہ طریقہ ناکام رہا۔
مجھے احساس ہوا کہ مسئلہ غیر ضروری کام کا تھا۔ LLM بار بار ایک ہی آئیڈیاز پر دوبارہ پروسیسنگ کر رہا تھا۔
میں نے اسے تین مراحل میں ٹھیک کیا:
سیمنٹک کیشنگ (Semantic Caching) میں نے بالکل ایک جیسے الفاظ تلاش کرنا چھوڑ دیا۔ میں نے ملتے جلتے سوالات تلاش کرنے کے لیے ایمبیڈنگز (embeddings) کا استعمال شروع کیا۔ اگر کوئی نیا سوال پرانے سوال سے 92% ملتا جلتا ہے، تو میں کیش شدہ جواب فراہم کرتا ہوں۔ اس کی کامیابی کی شرح (hit rate) 40% تک پہنچ گئی اور میرے اخراجات آدھے ہو گئے۔
اسمارٹ ماڈل روٹنگ (Smart Model Routing) میں نے ہر کام کے لیے GPT-4 کا استعمال بند کر دیا۔ میں نے ایک روٹر بنایا۔ اگر سوال مختصر اور سادہ ہے، تو میں سستا فراہم کنندہ (provider) استعمال کرتا ہوں۔ اگر سوال پیچیدہ ہے، تو میں اسے پریمیم ماڈل پر بھیج دیتا ہوں۔ زیادہ تر سوالات کے لیے ہائی اینڈ ماڈل کی ضرورت نہیں ہوتی۔
پرامپٹ ٹرمنگ (Prompt Trimming) میں نے ماڈل کو بھیجے جانے والے سیاق و سباق (context) کی مقدار کم کر دی۔ میں نے صرف سب سے زیادہ متعلقہ ڈیٹا کے ٹکڑے (chunks) منتخب کر کے سیاق و سباق کا سائز 60% تک کم کر دیا۔
نتائج:
- ہفتہ وار اخراجات 40 ڈالر سے کم ہو کر 7 ڈالر رہ گئے۔
- کیش کی وجہ سے جواب دینے کا وقت تیز ہو گیا۔
- صارفین کا اطمینان برقرار رہا۔
سیکھے گئے اسباق:
- پہلے دن سے ہی سیمنٹک کیش (semantic cache) بنائیں۔
- اپنے کلاؤڈ اکاؤنٹ پر فوری طور پر اخراجات کے الرٹس (cost alerts) لگائیں۔
- سادہ FAQ کے کاموں کے لیے مہنگے ماڈلز استعمال نہ کریں۔
AI کا اضافہ صرف پرامپٹس (prompts) کے بارے میں نہیں ہے۔ یہ معیشت (economics) کے بارے میں ہے۔ ہر API کال کے اصل پیسے لگتے ہیں۔ اگر آپ کارکردگی (efficiency) کے لیے ڈیزائن نہیں کرتے، تو آپ کا پروجیکٹ ناکام ہو جائے گا۔
آپ اپنے AI اخراجات کو کیسے سنبھالتے ہیں؟
ماخذ: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-stopped-my-ai-feature-from-draining-my-wallet-20il