Saya Memangkas Biaya AI API Saya Sebesar 70%

Translated for your language. Read the original.

AI-assisted draft.

2 minggu yang lalu1min read

Saya Memangkas Biaya AI API Saya Sebesar 70%

Tagihan OpenAI saya melonjak dari $30 menjadi $150. Sebuah bot Slack kecil menjadi penyebabnya. Prompt dan percobaan ulang (retries) yang berulang-ulang memakan biaya terlalu besar.

Saya mencoba perbaikan sederhana. Saya menggunakan caching dasar. Saya mengganti model. Tidak ada yang berhasil. Pengguna mengubah kalimat pertanyaan. Caching dasar gagal ketika kata-katanya berubah.

Saya membangun sebuah AI proxy. Ia berada di antara aplikasi saya dan API. Ia melakukan tiga hal:

Semantic caching. Saya menggunakan embeddings untuk menemukan pertanyaan yang serupa. Saya menyajikan jawaban dari cache jika tingkat kemiripannya tinggi.
Rate limiting. Saya menggunakan Redis untuk menghentikan lonjakan permintaan (request bursts).
Retry buffers. Proxy tersebut mencoba kembali panggilan yang gagal secara otomatis.

Ini memangkas biaya saya sebesar 70%.

Ada konsekuensinya (trade-offs):

Latensi. Ini menambah 200ms per permintaan.
Memori. Redis membutuhkan ruang untuk vektor.
Akurasi. Beberapa prompt yang mirip membutuhkan jawaban yang berbeda.

Pelajaran untuk Anda:

Mulailah dengan alat open source seperti LiteLLM.
Pantau data Anda sejak hari pertama.
Gunakan message queues untuk trafik tinggi.

Berhentilah memperlakukan AI API sebagai black boxes. Mereka adalah endpoint HTTP. Gunakan middleware untuk mengontrolnya.

Bagaimana setup Anda? Apakah Anda menggunakan layanan atau membangun sendiri?

Sumber: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf

Saya Memangkas Biaya AI API Saya Sebesar 70%

Continue reading

𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆 𝗼𝗻 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Cara Saya Menghentikan Fitur AI Agar Tidak Menguras Dompet Saya

Cara Saya Memangkas Tagihan API AI Menjadi Setengahnya Sambil Tetap Mencapai 99 SLA

7 Cara Mengurangi Tagihan AI Anda