Bagaimana Saya Mengurangkan Bil API AI Kami Sebanyak Separuh Sambil Mencapai p99 SLA

Bil AI kami berkembang terlalu pantas. CFO saya menyifatkannya sebagai kadar pembakaran (burn rate) yang tidak mampan. Pada masa itu, kami menggunakan GPT-4o untuk segalanya. Ia berfungsi, tetapi kosnya terlalu tinggi dan kependaman (latency) p99 tidak konsisten.

Saya memutuskan untuk menganggap pemilihan model AI sebagai masalah reka bentuk sistem. Saya berhenti mencari model yang terbaik dan mula mencari model yang terbaik untuk SLA khusus kami.

Saya menetapkan sasaran yang jelas terlebih dahulu: • kependaman p99 di bawah 1.5 saat untuk sembang (chat) • ketersediaan 99.9% • failover pelbagai wilayah (multi-region) • kapasiti throughput sebanyak 3x beban puncak

Sebaik sahaja saya mendapat angka-angka ini, penyelesaiannya menjadi jelas. Model termurah bagi setiap token tidak selalunya menjadi pilihan terbaik untuk pengeluaran (production). Jika model murah menggandakan kependaman anda, anda akan kehilangan pengguna.

Saya membandingkan banyak model. Perbezaan harganya sangat besar. GPT-4o berharga $10.00 bagi setiap satu juta token output. GLM-4 Plus berharga $0.80. Ujian kami menunjukkan GLM-4 Plus berprestasi hampir sama baik dengan GPT-4o untuk tugasan khusus kami seperti peringkasan (summarization) dan pengekstrakan (extraction).

Saya membina lapisan penghalaan (routing layer) untuk menguruskan perkara ini. Sistem tersebut mengikut peraturan berikut: • Hala permintaan berdasarkan jenis beban kerja • Gunakan model sandaran (fallback model) jika kependaman melonjak • Agihkan trafik merentasi wilayah • Simpan cache (cache) untuk permintaan yang kerap

Saya juga menambah cache Redis. Kadar hit (hit rate) ini mencapai 40% dalam masa satu minggu. Ini mengurangkan perbelanjaan token kami untuk pertanyaan berulang dan menurunkan kependaman daripada 1.4 saat kepada 200 milisaat.

Keputusannya: • Perbelanjaan inferens bulanan turun sebanyak 58% • kependaman p99 jatuh daripada 1.6s kepada 1.18s • Masa aktif (uptime) kekal pada 99.95% • Kadar hit cache mencapai 42%

Tiga pengajaran yang saya pelajari:

  1. Bina suite penilaian anda sendiri. Jangan percaya penanda aras (benchmark) generik. Gunakan data pengeluaran sebenar anda.
  2. Pantau had kadar (rate limits) dengan teliti. Trafik wilayah boleh menyebabkan lonjakan yang tidak dijangka.
  3. Bina suis pemati (kill switch). Prompt yang buruk boleh menyebabkan lonjakan besar dalam penggunaan token. Had pada token maksimum telah menyelamatkan kami sebanyak $14,000 sekali gus.

Jika bil AI anda terlalu tinggi, tetapkan SLA anda terlebih dahulu. Bina suite penilaian daripada trafik sebenar. Kemudian, lihat harga model yang anda abaikan buat masa ini.

Sumber: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi