קיצמתי את עלויות ה-AI API שלי ב-70%

החשבון שלי ב-OpenAI קפץ מ-$30 ל-$150. בוט Slack קטן גרם לזה. פרומפטים חוזרים וניסיונות חוזרים (retries) עלו יותר מדי.

ניסיתי תיקונים פשוטים. השתמשתי ב-caching בסיסי. החלפתי מודלים. שום דבר לא עבד. משתמשים מנסחים מחדש שאלות. caching בסיסי נכשל כשהמילים משתנות.

בניתי AI proxy. הוא יושב בין האפליקציה שלי לבין ה-API. הוא עושה שלושה דברים:

  • Semantic caching. אני משתמש ב-embeddings כדי למצוא שאלות דומות. אני מגיש את התשובה מה-cache אם רמת ההתאמה גבוהה.
  • Rate limiting. אני משתמש ב-Redis כדי למנוע פרצי בקשות (request bursts).
  • Retry buffers. ה-proxy מבצע retries אוטומטיים לקריאות שנכשלו.

זה קיצץ את העלויות שלי ב-70%.

יש לכך trade-offs:

  • Latency. זה מוסיף 200ms לכל בקשה.
  • Memory. Redis זקוק למקום עבור vectors.
  • Accuracy. חלק מהפרומפטים הדומים זקוקים לתשובות שונות.

לקחים עבורכם:

  • התחילו עם כלי open source כמו LiteLLM.
  • עקבו אחר הנתונים שלכם מהיום הראשון.
  • השתמשו ב-message queues לתעבורה גבוהה.

תפסיקו להתייחס ל-AI APIs כאל black boxes. הם HTTP endpoints. השתמשו ב-middleware כדי לשלוט בהם.

מה ה-setup שלכם? אתם משתמשים בשירות או בונים משלכם?

מקור: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf