آپ کا AI بل ماڈل کا مسئلہ نہیں ہے۔ یہ آرکیٹیکچر کا مسئلہ ہے۔
اگر آپ کے LLM کے اخراجات بڑھ رہے ہیں، تو غالباً آپ کسی سستے ماڈل پر منتقل ہونا چاہتے ہیں۔ آپ GPT-4 سے GPT-4-mini پر منتقل ہو سکتے ہیں۔ اس سے تھوڑی مدد تو ملتی ہے، لیکن یہ شاذ و نادر ہی اصل مسئلے کو حل کرتا ہے۔
اصل مسئلہ آپ کا ورک فلو (workflow) ہے۔ زیادہ تر لوگ ہر مرحلے کو LLM کے ذریعے گزارتے ہیں۔ وہ زبان کی منطق (language reasoning) کو ان کاموں کے لیے استعمال کرتے ہیں جنہیں اس کی ضرورت نہیں ہوتی۔
ہر AI ورک فلو کے چار حصے ہوتے ہیں:
• ٹرگر (Trigger): کام کا آغاز کرتا ہے۔ اس کی لاگت تقریباً صفر ہے۔ • ڈٹرمنسٹک ML (Deterministic ML): ڈیٹا کو درجہ بندی (classify) یا اسکور کرتا ہے۔ یہ سستا ہے۔ • LLM: پڑھتا ہے، لکھتا ہے اور منطق استعمال کرتا ہے۔ یہ مہنگا ہے۔ • ٹول/API (Tool/API): ڈیٹا حاصل کرتا ہے یا لکھتا ہے۔ یہ سستا ہے۔
ڈٹرمنسٹک ML اور LLM کے درمیان فرق بہت زیادہ ہے۔ ایک LLM ایک سادہ کلاسیفائر (classifier) کے مقابلے میں 100 سے 1000 گنا زیادہ مہنگا ہو سکتا ہے۔ اگر آپ ہر مرحلے کے لیے صحیح ٹول کا انتخاب نہیں کرتے، تو آپ خود بخود مہنگے ٹول کا استعمال کرنے لگتے ہیں۔
ایک سپورٹ ٹکٹ سسٹم (support ticket system) کو دیکھیں۔
ایک ناقص ڈیزائن (bad build) پورے ٹکٹ کو LLM کے پاس بھیج دیتا ہے۔ یہ LLM سے مقصد کی درجہ بندی کرنے، ٹکٹ کو آگے بھیجنے (route)، جواب کا مسودہ تیار کرنے اور CRM کو اپ ڈیٹ کرنے کا کہتا ہے۔ یہ ضرورت سے زیادہ مہنگا ہے۔ درجہ بندی (classification) کے لیے LLM کی ضرورت نہیں ہوتی۔ اس کے لیے متن کو کسی کیٹیگری سے جوڑنے کے لیے ایک سادہ ماڈل کی ضرورت ہوتی ہے۔
ایک بہتر ڈیزائن کچھ اس طرح کا ہوتا ہے:
- ٹرگر (Trigger): ایک ٹکٹ موصول ہوتا ہے۔
- ڈٹرمنسٹک ML (Deterministic ML): ایک تیز اور سستا ماڈل فیصلہ کرتا ہے کہ ٹکٹ بلنگ، تکنیکی یا اسپیم (spam) سے متعلق ہے۔
- LLM: صرف درست ٹکٹوں کے لیے جواب کا مسودہ تیار کرنے کے لیے استعمال ہوتا ہے۔
- ٹول/API (Tool/API): سسٹم CRM کو اپ ڈیٹ کرتا ہے۔
اس ورژن میں، اسپیم ٹکٹ کبھی LLM تک نہیں پہنچتے۔ آپ فضول کاموں پر "LLM ٹیکس" ادا کرنا بند کر دیتے ہیں۔
اگر آپ اپنے آرکیٹیکچر کو صحیح طریقے سے ترتیب دیتے ہیں، تو آپ ماڈلز تبدیل کرنے سے پہلے ہی سب سے مہنگے کالز (calls) کو ختم کر دیتے ہیں۔
اپنے اخراجات کم کرنے کے لیے ان اقدامات پر عمل کریں:
- اپنے ورک فلو کا نقشہ بنائیں۔ شناخت کریں کہ کن مراحل کو حقیقی منطق (reasoning) کی ضرورت ہے اور کون سے صرف درجہ بندی یا ڈیٹا نکالنے (extraction) کے لیے ہیں۔
- ڈٹرمنسٹک مراحل کو پرامپٹ (prompt) سے باہر نکالیں۔ راؤٹنگ اور اسکورنگ کے لیے تیز اور سستے طریقے استعمال کریں۔
- LLM پر پابندی (gate) لگائیں۔ ان کاموں کے لیے جوابات تیار نہ کریں جن کی ضرورت نہ ہو۔
- ماڈل کے سائز کا جائزہ آخر میں لیں۔ جنریشن (generation) کے مرحلے کے لیے چھوٹا ماڈل صرف اس وقت منتخب کریں جب آپ کا آرکیٹیکچر بہتر اور مختصر (lean) ہو جائے۔
اس بحث کو ختم کریں کہ کون سا ماڈل فی ٹوکن (per token) سب سے سستا ہے۔ ایسی آرکیٹیکچرز بنانا شروع کریں جو مہنگے انجن کو صرف ضرورت پڑنے پر استعمال کریں۔
Source: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole
Optional learning community: https://t.me/GyaanSetuAi
