AI سسٹمز میں ریٹ لیمیٹنگ (Rate Limiting) اور سرکٹ بریکرز (Circuit Breakers)

تقسیم شدہ (Distributed) AI سسٹمز پیچیدہ ہوتے ہیں۔ یہ درخواستوں (requests) کے بھاری حجم اور ماڈل کے بھاری انفرنس (inference) کو سنبھالتے ہیں۔ آپ GPU کلسٹرز، ڈیٹا بیسز، اور تھرڈ پارٹی APIs پر انحصار کرتے ہیں۔ کوئی ایک خراب جز (component) یا ٹریفک میں اچانک اضافہ آپ کے پورے سسٹم کو کریش کر سکتا ہے۔

اپنے سسٹم کو محفوظ بنانے کے لیے آپ کو دو ٹولز کی ضرورت ہے: ریٹ لیمیٹنگ اور سرکٹ بریکرز۔

ریٹ لیمیٹنگ (Rate Limiting)

ریٹ لimiٹنگ کسی ایک صارف یا سروس کو بہت زیادہ وسائل استعمال کرنے سے روکتی ہے۔ یہ ہر ایک کے لیے منصفانہ رسائی کو یقینی بناتی ہے۔

عام طریقے:

AI کے لیے پرو ٹپ: صرف درخواستوں (requests) کے بجائے ٹوکن کی تعداد (token count) کے ذریعے حد مقرر کریں۔ 4,000 ٹوکنز والا ایک پرامپٹ (prompt) 10 ٹوکنز والے پرامپٹ کے مقابلے میں زیادہ وسائل استعمال کرتا ہے۔

سرکٹ بریکرز (Circuit Breakers)

سرکٹ بریکر آپ کے GPU سرور یا ویکٹر ڈیٹا بیس جیسی سروسز کو کی جانے والی کالز کی نگرانی کرتا ہے۔ اگر کوئی سروس بہت زیادہ بار ناکام ہوتی ہے، تو بریکر کھل (open) جاتا ہے۔ یہ فوری طور پر اس سروس کو کی جانے والی تمام کالز روک دیتا ہے۔ یہ پورے سسٹم کو کریش ہونے سے بچاتا ہے۔

سرکٹ تین حالتوں (states) پر عمل کرتا ہے:

بہترین طریقے:

ماخذ (Source): https://dev.to/biao_lin_14b493a4944b1361/rate-limiting-and-circuit-breakers-in-distributed-ai-systems-1p56

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi