𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

Translated for your language. Read the original.

AI-assisted draft.

לפני שבועיים1min read

קיצמתי את עלויות ה-AI API שלי ב-70%

החשבון שלי ב-OpenAI קפץ מ-$30 ל-$150. בוט Slack קטן גרם לזה. פרומפטים חוזרים וניסיונות חוזרים (retries) עלו יותר מדי.

ניסיתי תיקונים פשוטים. השתמשתי ב-caching בסיסי. החלפתי מודלים. שום דבר לא עבד. משתמשים מנסחים מחדש שאלות. caching בסיסי נכשל כשהמילים משתנות.

בניתי AI proxy. הוא יושב בין האפליקציה שלי לבין ה-API. הוא עושה שלושה דברים:

Semantic caching. אני משתמש ב-embeddings כדי למצוא שאלות דומות. אני מגיש את התשובה מה-cache אם רמת ההתאמה גבוהה.
Rate limiting. אני משתמש ב-Redis כדי למנוע פרצי בקשות (request bursts).
Retry buffers. ה-proxy מבצע retries אוטומטיים לקריאות שנכשלו.

זה קיצץ את העלויות שלי ב-70%.

יש לכך trade-offs:

לקחים עבורכם:

תפסיקו להתייחס ל-AI APIs כאל black boxes. הם HTTP endpoints. השתמשו ב-middleware כדי לשלוט בהם.

מה ה-setup שלכם? אתם משתמשים בשירות או בונים משלכם?

Continue reading