Saya Memangkas Biaya AI API Saya Sebesar 70%

Tagihan OpenAI saya melonjak dari $30 menjadi $150. Sebuah bot Slack kecil menjadi penyebabnya. Prompt dan percobaan ulang (retries) yang berulang-ulang memakan biaya terlalu besar.

Saya mencoba perbaikan sederhana. Saya menggunakan caching dasar. Saya mengganti model. Tidak ada yang berhasil. Pengguna mengubah kalimat pertanyaan. Caching dasar gagal ketika kata-katanya berubah.

Saya membangun sebuah AI proxy. Ia berada di antara aplikasi saya dan API. Ia melakukan tiga hal:

  • Semantic caching. Saya menggunakan embeddings untuk menemukan pertanyaan yang serupa. Saya menyajikan jawaban dari cache jika tingkat kemiripannya tinggi.
  • Rate limiting. Saya menggunakan Redis untuk menghentikan lonjakan permintaan (request bursts).
  • Retry buffers. Proxy tersebut mencoba kembali panggilan yang gagal secara otomatis.

Ini memangkas biaya saya sebesar 70%.

Ada konsekuensinya (trade-offs):

  • Latensi. Ini menambah 200ms per permintaan.
  • Memori. Redis membutuhkan ruang untuk vektor.
  • Akurasi. Beberapa prompt yang mirip membutuhkan jawaban yang berbeda.

Pelajaran untuk Anda:

  • Mulailah dengan alat open source seperti LiteLLM.
  • Pantau data Anda sejak hari pertama.
  • Gunakan message queues untuk trafik tinggi.

Berhentilah memperlakukan AI API sebagai black boxes. Mereka adalah endpoint HTTP. Gunakan middleware untuk mengontrolnya.

Bagaimana setup Anda? Apakah Anda menggunakan layanan atau membangun sendiri?

Sumber: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf