Bagaimana Saya Memangkas Tagihan AI API Kami Menjadi Setengahnya Sambil Tetap Memenuhi p99 SLA
Tagihan AI kami tumbuh terlalu cepat. CFO saya menyebutnya sebagai burn rate yang tidak berkelanjutan. Saat itu, kami menggunakan GPT-4o untuk segalanya. Itu berhasil, tetapi biayanya terlalu tinggi dan latensi p99 tidak konsisten.
Saya memutuskan untuk memperlakukan pemilihan model AI sebagai masalah desain sistem. Saya berhenti mencari model terbaik dan mulai mencari model terbaik untuk SLA spesifik kami.
Saya menetapkan target yang jelas terlebih dahulu: • latensi p99 di bawah 1,5 detik untuk chat • ketersediaan 99,9% • multi-region failover • kapasitas throughput 3x beban puncak
Setelah saya mendapatkan angka-angka ini, solusinya menjadi jelas. Model termurah per token tidak selalu menjadi pilihan terbaik untuk produksi. Jika model murah melipatgandakan latensi Anda, Anda akan kehilangan pengguna.
Saya membandingkan banyak model. Perbedaan harganya sangat besar. GPT-4o berbiaya $10.00 per satu juta token output. GLM-4 Plus berbiaya $0.80. Pengujian kami menunjukkan bahwa GLM-4 Plus berkinerja hampir sebaik GPT-4o untuk tugas spesifik kami seperti peringkasan (summarization) dan ekstraksi.
Saya membangun routing layer untuk mengelola ini. Sistem mengikuti aturan berikut: • Rute permintaan berdasarkan jenis beban kerja • Gunakan model fallback jika latensi melonjak • Sebarkan trafik ke berbagai region • Cache permintaan yang sering muncul
Saya juga menambahkan cache Redis. Hit rate ini mencapai 40% dalam satu minggu. Hal ini mengurangi pengeluaran token kami pada kueri yang berulang dan menurunkan latensi dari 1,4 detik menjadi 200 milidetik.
Hasilnya: • Pengeluaran inferensi bulanan turun 58% • latensi p99 turun dari 1,6 detik menjadi 1,18 detik • Uptime tetap di 99,95% • Cache hit rate mencapai 42%
Tiga pelajaran yang saya pelajari:
- Bangun evaluation suite Anda sendiri. Jangan percaya pada benchmark generik. Gunakan data produksi asli Anda.
- Awasi rate limits dengan cermat. Trafik regional dapat menyebabkan lonjakan yang tidak terduga.
- Bangun kill switch. Prompt yang buruk dapat menyebabkan lonjakan masif dalam penggunaan token. Batasan (cap) pada token maksimum pernah menyelamatkan kami sebesar $14,000.
Jika tagihan AI Anda terlalu tinggi, tentukan SLA Anda terlebih dahulu. Bangun evaluation suite dari trafik asli. Kemudian, lihat harga model yang saat ini Anda abaikan.
Sumber: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi