كيف خفضت فاتورة واجهة برمجة تطبيقات الذكاء الاصطناعي (AI API) لدينا إلى النصف مع الالتزام باتفاقيات مستوى الخدمة (SLAs) لـ p99
كانت فاتورة الذكاء الاصطناعي لدينا تنمو بسرعة كبيرة. وصفها المدير المالي بأنها معدل استنزاف (burn rate) غير مستدام. في ذلك الوقت، كنا نستخدم GPT-4o لكل شيء. لقد كان يعمل، لكن التكاليف كانت مرتفعة للغاية وزمن الاستجابة (latency) لـ p99 كان غير مستقر.
قررت التعامل مع اختيار نموذج الذكاء الاصطناعي كمسألة تصميم نظام. توقفت عن البحث عن "أفضل نموذج" وبدأت في البحث عن "أفضل نموذج لاتفاقيات مستوى الخدمة (SLAs) الخاصة بنا".
وضعت أهدافاً واضحة أولاً: • زمن استجابة p99 أقل من 1.5 ثانية للدردشة • توفر بنسبة 99.9% • تجاوز الفشل عبر مناطق متعددة (Multi-region failover) • سعة إنتاجية تعادل 3 أضعاف ذروة التحميل
بمجرد حصولي على هذه الأرقام، أصبح الحل واضحاً. النموذج الأرخص لكل رمز (token) ليس دائماً الخيار الأفضل للإنتاج. إذا ضاعف النموذج الرخيص زمن الاستجابة لديك، فستفقد المستخدمين.
قارنت بين العديد من النماذج. كان فرق السعر هائلاً. تبلغ تكلفة GPT-4o حوالي 10.00 دولارات لكل مليون رمز مخرجات (output tokens)، بينما تبلغ تكلفة GLM-4 Plus حوالي 0.80 دولاراً. أظهرت اختباراتنا أن GLM-4 Plus كان أداؤه يقارب أداء GPT-4o في مهامنا المحددة مثل التلخيص والاستخراج.
قمت ببناء طبقة توجيه (routing layer) لإدارة ذلك. يتبع النظام القواعد التالية: • توجيه الطلبات بناءً على نوع عبء العمل • استخدام نموذج احتياطي (fallback model) في حال حدوث ارتفاع مفاجئ في زمن الاستجابة • توزيع حركة المرور عبر المناطق • تخزين الطلبات المتكررة مؤقتاً (Cache)
أضفت أيضاً ذاكرة تخزين مؤقت Redis. وصلت نسبة نجاح التخزين (hit rate) إلى 40% في غضون أسبوع واحد. أدى ذلك إلى تقليل إنفاقنا على الرموز (tokens) في الاستعلامات المتكررة وخفض زمن الاستجابة من 1.4 ثانية إلى 200 مللي ثانية.
النتائج: • انخفض الإنفاق الشهري على الاستدلال (inference) بنسبة 58% • انخفض زمن استجابة p99 من 1.6 ثانية إلى 1.18 ثانية • ظل وقت التشغيل (Uptime) عند 99.95% • وصلت نسبة نجاح التخزين المؤقت إلى 42%
ثلاثة دروس تعلمتها:
- ابنِ مجموعة تقييم خاصة بك. لا تثق في المعايير المرجعية (benchmarks) العامة. استخدم بيانات الإنتاج الحقيقية الخاصة بك.
- راقب حدود المعدل (rate limits) بدقة. يمكن أن تسبب حركة المرور الإقليمية ارتفاعات مفاجئة غير متوقعة.
- ابنِ مفتاح إيقاف (kill switch). يمكن أن يتسبب أمر (prompt) سيئ في حدوث ارتفاع هائل في استخدام الرموز. لقد وفر لنا وضع حد أقصى للرموز (max tokens) مبلغ 14,000 دولار في إحدى المرات.
إذا كانت فاتورة الذكاء الاصطناعي لديك مرتفعة للغاية، فحدد اتفاقية مستوى الخدمة (SLA) الخاصة بك أولاً. ابنِ مجموعة تقييم من حركة المرور الحقيقية. ثم ابحث في أسعار النماذج التي تتجاهلها حالياً.
Source: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05
Optional learning community: https://t.me/GyaanSetuAi