پروڈکشن اے آئی کی پوشیدہ لاگت

Translated for your language. Read the original.

AI-assisted draft.

19 گھنٹے پہلے2min read

پروڈکشن AI کی پوشیدہ قیمت

پروڈکشن میں سب سے خراب بگ (bugs) آپ کے سسٹم کو کریش نہیں کرتے۔ وہ بس خاموشی سے ناکام ہو جاتے ہیں۔

ایک LLM فراہم کنندہ (provider) میں جزوی خرابی (outage) ہو سکتی ہے۔ وہ 200 OK اسٹیٹس تو واپس کرتے ہیں، لیکن جواب خالی یا بے معنی ہوتا ہے۔ کوئی ایرر (error) نہیں ہوتا۔ کوئی الرٹ (alert) نہیں ہوتا۔ یہ کامیابی جیسا لگتا ہے، لیکن یہ ایک ناکامی ہے۔

یہی AI کی اصل قیمت ہے۔ یہ API کے بل نہیں ہیں۔ یہ وہ ناکامی ہے جو تب تک معمول کی نظر آتی ہے جب تک کوئی صارف آپ کو یہ نہ بتا دے کہ کچھ غلط ہے۔

میں ایک ایسا پائپ لائن (pipeline) چلاتا ہوں جو روزانہ 10,000 ملازمتوں کی فہرستوں کو اسکور کرتا ہے۔ میں OpenAI، Anthropic، Gemini، DeepSeek، اور Groq استعمال کرتا ہوں۔ یہاں بتایا گیا ہے کہ آپ کیسے کام کرنے والی فال بیک چینز (fallback chains) بنا سکتے ہیں۔

زیادہ تر ٹیمیں ایک ہی فراہم کنندہ استعمال کرتی ہیں۔ یہ ڈویلپمنٹ میں تو کام کرتا ہے۔ پھر جب پروڈکشن ٹریفک آتی ہے، تو آپ کو ریٹ لمٹس (rate limits)، کمزور جوابات (degraded responses)، یا پرانے (deprecated) ماڈلز کا سامنا کرنا پڑتا ہے۔

آپ کو تین تہوں والے آرکیٹیکچر (three-layer architecture) کی ضرورت ہے:

لیئر 1: پرائمری ماڈل۔ اعلیٰ معیار اور زیادہ قیمت۔
لیئر 2: فال بیک ماڈل۔ اچھا معیار اور کم قیمت۔
لیئر 3: ڈی گریڈڈ موڈ (Degraded mode)۔ کم سے کم معیار اور تقریباً صفر قیمت۔

ہر لیئر کو ایک مختلف فراہم کنندہ استعمال کرنا چاہیے۔ اگر ایک فراہم کنندہ کام کرنا چھوڑ دے، تو دوسرے کام کرتے رہیں۔

اہم مشورہ: صرف HTTP اسٹیٹس کو چیک نہ کریں۔ آپ کو آؤٹ پٹ کی تصدیق (validate) کرنی چاہیے۔ اسٹرکچرڈ ڈیٹا (structured data) کے لیے اسکیما ویلیڈیشن (schema validation) استعمال کریں۔ ٹیکسٹ کے لیے لینتھ چیک (length checks) استعمال کریں۔

میں اپنے کاموں کے لیے تین درجے (tiers) استعمال کرتا ہوں:

ٹائر 1: پیچیدہ کام۔ میں GPT-4o یا Claude 3.5 Sonnet استعمال کرتا ہوں۔
ٹائر 2: کلاسیفیکیشن (Classification)۔ میں GPT-4o mini یا Gemini 2.0 Flash استعمال کرتا ہوں۔
ٹائر 3: رفتار کے لحاظ سے اہم کام۔ میں Groq یا DeepSeek V4 Flash استعمال کرتا ہوں۔

یہ روٹنگ (routing) مہنگے ماڈلز کو صرف ضرورت پڑنے پر استعمال کر کے اخراجات کم کرتی ہے۔

اپنے ایمبیڈنگ فراہم کنندگان (embedding providers) کو نہ بھولیں۔ اگر آپ کی ایمبیڈنگ API ناکام ہو جائے، تو آپ کا RAG پائپ لائن کام کرنا بند کر دیتا ہے۔ میں ہر پائپ لائن کے لیے متوازی طور پر دو ایمبیڈنگ فراہم کنندگان برقرار رکھتا ہوں۔

خاموش ناکامیوں کو پکڑنے کے لیے، ان تین میٹرکس (metrics) پر نظر رکھیں:

رسپانس ٹائم (Response time)۔ اگر ایک پیچیدہ پرامپٹ بہت تیزی سے جواب دے دے، تو غالباً ماڈل نے کیش شدہ (cached) یا خالی جواب دیا ہے۔
آؤٹ پٹ کی لمبائی (Output length)۔ مختصر جوابات ایک خطرے کی علامت (red flag) ہیں۔
اسکیما کی تعمیل (Schema compliance)۔ چیک کریں کہ آیا مواد واقعی مفید ہے یا صرف نل ویلیوز (null values) کا مجموعہ ہے۔

ایک اچھی فال بیک چین اس بات کو یقینی بناتی ہے کہ ہر درخواست کو قابل استعمال جواب ملے۔ آپ اضافی صلاحیت کے لیے ادائیگی کرتے ہیں، لیکن آپ صارف کے اعتماد کی حفاظت کرتے ہیں۔

ذریعہ: https://dev.to/abdul___rehman/the-hidden-cost-of-production-ai-how-to-build-fallback-chains-that-dont-fail-silently-dec

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

پروڈکشن اے آئی کی پوشیدہ لاگت

Continue reading

میں نے ایک ہی AI فراہم کنندہ پر انحصار کرنا کیوں چھوڑ دیا

میں روزانہ اپنے اے آئی (AI) کے اخراجات کا حساب رکھتا ہوں

ایل ایل ایم گیٹ ویز: روٹنگ، فال بیکس، اور سیمنٹک کیشنگ

𝗔𝗜 𝗠𝗼𝗱𝗲𝗹 𝗙𝗮𝗶𝗹𝗼𝘃𝗲𝗿 𝗗𝗿𝗶𝗹𝗹𝘀: 𝗞𝗲𝗲𝗽 𝗔𝗴𝗲𝗻𝘁𝘀 𝗨𝘀𝗲𝗳𝘂𝗹 𝗪𝗵𝗲𝗻 𝗣𝗿𝗼𝘃𝗶𝗱𝗲𝗿𝘀 𝗕𝗿𝗲𝗮𝗸

اے آئی خریدنا بمقابلہ بنانا: ایک سی ایف او چیک لسٹ