تحديد معدل الطلبات وقواطع الدائرة في أنظمة الذكاء الاصطناعي

أنظمة الذكاء الاصطناعي الموزعة معقدة. فهي تتعامل مع أحجام هائلة من الطلبات وعمليات استنتاج النماذج الثقيلة. أنت تعتمد على مجموعات GPU، وقواعد البيانات، وواجهات برمجة التطبيقات (APIs) الخارجية. يمكن لمكون واحد معطل أو طفرة مفاجئة في حركة المرور أن تؤدي إلى انهيار نظامك بالكامل.

أنت بحاجة إلى أداتين لحماية نظامك: تحديد معدل الطلبات (rate limiting) وقواطع الدائرة (circuit breakers).

تحديد معدل الطلبات (Rate Limiting)

يمنع تحديد معدل الطلبات مستخدماً واحداً أو خدمة واحدة من استهلاك الكثير من الموارد، مما يضمن وصولاً عادلاً للجميع.

الأساليب الشائعة:

نصيحة احترافية للذكاء الاصطناعي: حدد الاستهلاك بناءً على عدد الرموز (tokens)، وليس فقط عدد الطلبات. فالمطالبة (prompt) الواحدة التي تحتوي على 4,000 رمز تستهلك موارد أكثر من مطالبة تحتوي على 10 رموز فقط.

قواطع الدائرة (Circuit Breakers)

يقوم قاطع الدائرة بمراقبة الاستدعاءات لخدمات مثل خادم GPU الخاص بك أو قاعدة بيانات المتجهات (vector database). إذا فشلت الخدمة عدة مرات، يفتح القاطع، مما يؤدي إلى إيقاف جميع الاستدعاءات لتلك الخدمة فوراً، وهذا يمنع الانهيار الكامل للنظام.

تتبع الدائرة ثلاث حالات:

أفضل الممارسات:

المصدر: https://dev.to/biao_lin_14b493a4944b1361/rate-limiting-and-circuit-breakers-in-distributed-ai-systems-1p56

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi