Cara Saya Memangkas Tagihan API AI Menjadi Setengahnya Sambil Tetap Mencapai 99 SLA

Translated for your language. Read the original.

AI-assisted draft.

kemarin2min read

Bagaimana Saya Memangkas Tagihan AI API Kami Menjadi Setengahnya Sambil Tetap Memenuhi p99 SLA

Tagihan AI kami tumbuh terlalu cepat. CFO saya menyebutnya sebagai burn rate yang tidak berkelanjutan. Saat itu, kami menggunakan GPT-4o untuk segalanya. Itu berhasil, tetapi biayanya terlalu tinggi dan latensi p99 tidak konsisten.

Saya memutuskan untuk memperlakukan pemilihan model AI sebagai masalah desain sistem. Saya berhenti mencari model terbaik dan mulai mencari model terbaik untuk SLA spesifik kami.

Saya menetapkan target yang jelas terlebih dahulu: • latensi p99 di bawah 1,5 detik untuk chat • ketersediaan 99,9% • multi-region failover • kapasitas throughput 3x beban puncak

Setelah saya mendapatkan angka-angka ini, solusinya menjadi jelas. Model termurah per token tidak selalu menjadi pilihan terbaik untuk produksi. Jika model murah melipatgandakan latensi Anda, Anda akan kehilangan pengguna.

Saya membandingkan banyak model. Perbedaan harganya sangat besar. GPT-4o berbiaya $10.00 per satu juta token output. GLM-4 Plus berbiaya $0.80. Pengujian kami menunjukkan bahwa GLM-4 Plus berkinerja hampir sebaik GPT-4o untuk tugas spesifik kami seperti peringkasan (summarization) dan ekstraksi.

Saya membangun routing layer untuk mengelola ini. Sistem mengikuti aturan berikut: • Rute permintaan berdasarkan jenis beban kerja • Gunakan model fallback jika latensi melonjak • Sebarkan trafik ke berbagai region • Cache permintaan yang sering muncul

Saya juga menambahkan cache Redis. Hit rate ini mencapai 40% dalam satu minggu. Hal ini mengurangi pengeluaran token kami pada kueri yang berulang dan menurunkan latensi dari 1,4 detik menjadi 200 milidetik.

Hasilnya: • Pengeluaran inferensi bulanan turun 58% • latensi p99 turun dari 1,6 detik menjadi 1,18 detik • Uptime tetap di 99,95% • Cache hit rate mencapai 42%

Tiga pelajaran yang saya pelajari:

Bangun evaluation suite Anda sendiri. Jangan percaya pada benchmark generik. Gunakan data produksi asli Anda.
Awasi rate limits dengan cermat. Trafik regional dapat menyebabkan lonjakan yang tidak terduga.
Bangun kill switch. Prompt yang buruk dapat menyebabkan lonjakan masif dalam penggunaan token. Batasan (cap) pada token maksimum pernah menyelamatkan kami sebesar $14,000.

Jika tagihan AI Anda terlalu tinggi, tentukan SLA Anda terlebih dahulu. Bangun evaluation suite dari trafik asli. Kemudian, lihat harga model yang saat ini Anda abaikan.

Sumber: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi

Cara Saya Memangkas Tagihan API AI Menjadi Setengahnya Sambil Tetap Mencapai 99 SLA

Continue reading

Saya Memangkas Biaya AI API Saya Sebesar 70%

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Cara Saya Menghentikan Fitur AI Agar Tidak Menguras Dompet Saya

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

7 Cara Mengurangi Tagihan AI Anda