קיצמתי את עלויות ה-AI API שלי ב-70%
החשבון שלי ב-OpenAI קפץ מ-$30 ל-$150. בוט Slack קטן גרם לזה. פרומפטים חוזרים וניסיונות חוזרים (retries) עלו יותר מדי.
ניסיתי תיקונים פשוטים. השתמשתי ב-caching בסיסי. החלפתי מודלים. שום דבר לא עבד. משתמשים מנסחים מחדש שאלות. caching בסיסי נכשל כשהמילים משתנות.
בניתי AI proxy. הוא יושב בין האפליקציה שלי לבין ה-API. הוא עושה שלושה דברים:
- Semantic caching. אני משתמש ב-embeddings כדי למצוא שאלות דומות. אני מגיש את התשובה מה-cache אם רמת ההתאמה גבוהה.
- Rate limiting. אני משתמש ב-Redis כדי למנוע פרצי בקשות (request bursts).
- Retry buffers. ה-proxy מבצע retries אוטומטיים לקריאות שנכשלו.
זה קיצץ את העלויות שלי ב-70%.
יש לכך trade-offs:
- Latency. זה מוסיף 200ms לכל בקשה.
- Memory. Redis זקוק למקום עבור vectors.
- Accuracy. חלק מהפרומפטים הדומים זקוקים לתשובות שונות.
לקחים עבורכם:
- התחילו עם כלי open source כמו LiteLLM.
- עקבו אחר הנתונים שלכם מהיום הראשון.
- השתמשו ב-message queues לתעבורה גבוהה.
תפסיקו להתייחס ל-AI APIs כאל black boxes. הם HTTP endpoints. השתמשו ב-middleware כדי לשלוט בהם.
מה ה-setup שלכם? אתם משתמשים בשירות או בונים משלכם?