میں نے اس RAG سیٹ اپ کے ذریعے اپنے AI اخراجات 60% کیسے کم کیے

تین ماہ قبل، میں نے تقریباً ایک کلائنٹ کو فارغ ہی کر دیا تھا۔

ایسا اس لیے نہیں تھا کہ وہ مشکل تھے، بلکہ اس لیے تھا کہ ان کا LLM بل میرا منافع کھا رہا تھا۔ میں نے ان کا RAG سسٹم بنانے کے لیے $4,800 لیے تھے۔ دوسرے مہینے تک، میں نے اسے چلانے کے لیے صرف API فیس پر $3,100 خرچ کر دی تھی۔ یہ کوئی کاروبار نہیں ہے۔ یہ تو خیرات ہے۔

میں نے پورا پائپ لائن (pipeline) دوبارہ ترتیب دیا۔ میں نے DeepSeek پر سوئچ کیا اور اپنے vector store سیٹ اپ کو تبدیل کیا۔ اب، اسی کام کی ماہانہ لاگت $410 ہے۔ درستگی اور معیار وہی ہے۔ میں نے اپنے اخراجات میں تقریباً 87% کمی کی۔

یہ رہا اس کا طریقہ کار (playbook)۔

زیادہ تر AI بوٹس کا مسئلہ انجینئرنگ نہیں ہے۔ مسئلہ یہ ہے کہ جب کلائنٹس ہفتے میں 40,000 سوالات (queries) کرتے ہیں تو منافع بخش کیسے رہا جائے۔ میں پہلے GPT-4o جیسے "محفوظ" ماڈلز استعمال کرتا تھا۔ وہ ماڈلز گھر کی قسطیں ادا نہیں کر سکتے۔

میں نے ہر درخواست (request) کو ٹریک کرنا شروع کیا۔ میں نے ٹوکن کی تعداد اور کیش ہٹس (cache hits) کا جائزہ لیا۔ مجھے احساس ہوا کہ زیادہ تر خرچ معمولی سوالات پر ہو رہا تھا۔ لوگ بار بار پوچھتے تھے کہ "ہماری ریفنڈ پالیسی کیا ہے"۔ یہ سوالات ہر بار ایک ہی ڈیٹا تک پہنچتے تھے۔

میرا پرانا سیٹ اپ ہر چیز کے لیے GPT-4o استعمال کرتا تھا۔ ہر سادہ سوال کی قیمت مجھے $0.014 پڑتی تھی۔ مہینے کے چالیس ہزار سوالات صرف آسان کاموں کے لیے $560 کے پڑتے تھے۔

میرا نیا سیٹ اپ ایک اسمارٹ روٹنگ اسٹریٹیجی استعمال کرتا ہے:

• 80% ٹریفک DeepSeek V4 Flash پر جاتی ہے۔ • 20% پیچیدہ کام DeepSeek V4 Pro پر جاتے ہیں۔ • معمولی کام GLM-4 Plus پر جاتے ہیں۔

لاگت کا فرق بہت زیادہ ہے۔ DeepSeek V4 Flash کی قیمت فی ملین ان پٹ ٹوکنز $0.27 ہے۔ جبکہ GPT-4o کی قیمت $2.50 ہے۔

میں اخراجات کو کم کیسے رکھتا ہوں:

میں اپنے کیش کے طور پر ChromaDB استعمال کرتا ہوں۔ سپورٹ بوٹ کے لیے جہاں زیادہ تر سوالات دہرائے جاتے ہیں، یہ بہت سے سوالات کو تقریباً مفت کر دیتا ہے۔

آپ صرف بنانے کی فیس (build fee) سے امیر نہیں ہوتے۔ آپ اس وقت امیر ہوتے ہیں جب کلائنٹ آپ کے سسٹم پر بھروسہ کرنے لگے اور آپ کو ماہانہ ریٹینر (monthly retainer) ملنا شروع ہو جائے۔

ماخذ: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0