لقد خفضت تكاليف واجهة برمجة تطبيقات (API) الذكاء الاصطناعي الخاصة بي بنسبة 70%

قفزت فاتورة OpenAI الخاصة بي من 30 دولاراً إلى 150 دولاراً. تسبب بوت Slack صغير في ذلك. تسببت المطالبات (prompts) المتكررة ومحاولات إعادة الإرسال في تكاليف باهظة.

حاولت تطبيق إصلاحات بسيطة. استخدمت التخزين المؤقت (caching) الأساسي. قمت بتغيير النماذج (models). لم ينجح أي شيء. المستخدمون يعيدون صياغة الأسئلة. يفشل التخزين المؤقت الأساسي عندما تتغير الكلمات.

قمت ببناء وكيل ذكاء اصطناعي (AI proxy). يعمل كوسيط بين تطبيقي وواجهة برمجة التطبيقات (API). يقوم بثلاثة أشياء:

  • التخزين المؤقت الدلالي (Semantic caching). أستخدم التضمينات (embeddings) للعثور على أسئلة مشابهة. وأقدم الإجابة المخزنة مؤقتاً إذا كانت نسبة التطابق عالية.
  • تحديد معدل الطلبات (Rate limiting). أستخدم Redis لمنع تدفق الطلبات المفاجئ.
  • مخازن إعادة المحاولة (Retry buffers). يقوم الوكيل بإعادة محاولة الاستدعاءات الفاشلة تلقائياً.

أدى ذلك إلى خفض تكاليفي بنسبة 70%.

هناك بعض المقايضات (trade-offs):

  • زمن الاستجابة (Latency). يضيف 200 مللي ثانية لكل طلب.
  • الذاكرة. يحتاج Redis إلى مساحة للمتجهات (vectors).
  • الدقة. بعض المطالبات المتشابهة قد تتطلب إجابات مختلفة.

دروس لك:

  • ابدأ بأدوات مفتوحة المصدر مثل LiteLLM.
  • تتبع بياناتك منذ اليوم الأول.
  • استخدم طوابير الرسائل (message queues) لحركة المرور العالية.

توقف عن التعامل مع واجهات برمجة تطبيقات الذكاء الاصطناعي كصناديق سوداء. إنها مجرد نقاط نهاية HTTP. استخدم البرمجيات الوسيطة (middleware) للتحكم فيها.

ما هو إعدادك؟ هل تستخدم خدمة جاهزة أم تبني نظامك الخاص؟

المصدر: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf