AI API Maliyetlerimi %70 Azalttım

OpenAI faturam 30 dolardan 150 dolara fırladı. Buna küçük bir Slack botu sebep oldu. Tekrarlanan istemler (prompts) ve yeniden denemeler çok maliyetliydi.

Basit çözümler denedim. Temel önbelleğe alma (caching) yöntemlerini kullandım. Modelleri değiştirdim. Hiçbiri işe yaramadı. Kullanıcılar soruları farklı şekillerde soruyor. Kelimeler değiştiğinde temel önbelleğe alma yöntemi başarısız oluyor.

Bir AI proxy inşa ettim. Uygulamam ile API arasında konumlanıyor. Üç şey yapıyor:

  • Semantik önbelleğe alma (Semantic caching). Benzer soruları bulmak için embedding'leri kullanıyorum. Eşleşme yüksekse önbelleğe alınmış cevabı sunuyorum.
  • Hız sınırlama (Rate limiting). İstek patlamalarını durdurmak için Redis kullanıyorum.
  • Yeniden deneme tamponları (Retry buffers). Proxy, başarısız çağrıları otomatik olarak tekrar deniyor.

Bu, maliyetlerimi %70 oranında düşürdü.

Bazı ödünleşimler (trade-offs) var:

  • Gecikme (Latency). İstek başına 200ms ekliyor.
  • Bellek (Memory). Redis, vektörler için alana ihtiyaç duyuyor.
  • Doğruluk (Accuracy). Bazı benzer istemler farklı cevaplar gerektiriyor.

Sizin için dersler:

  • LiteLLM gibi açık kaynaklı araçlarla başlayın.
  • Verilerinizi ilk günden itibaren takip edin.
  • Yüksek trafik için mesaj kuyrukları (message queues) kullanın.

AI API'larını birer kara kutu gibi görmeyi bırakın. Onlar birer HTTP uç noktasıdır (endpoint). Onları kontrol etmek için ara yazılım (middleware) kullanın.

Sizin kurulumunuz nasıl? Bir servis mi kullanıyorsunuz yoksa kendiniz mi inşa ediyorsunuz?

Kaynak: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf