𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Translated for your language. Read the original.

AI-assisted draft.

semalam2min read

Bagaimana Saya Mengurangkan Bil API AI Kami Sebanyak Separuh Sambil Mencapai p99 SLA

Bil AI kami berkembang terlalu pantas. CFO saya menyifatkannya sebagai kadar pembakaran (burn rate) yang tidak mampan. Pada masa itu, kami menggunakan GPT-4o untuk segalanya. Ia berfungsi, tetapi kosnya terlalu tinggi dan kependaman (latency) p99 tidak konsisten.

Saya memutuskan untuk menganggap pemilihan model AI sebagai masalah reka bentuk sistem. Saya berhenti mencari model yang terbaik dan mula mencari model yang terbaik untuk SLA khusus kami.

Saya menetapkan sasaran yang jelas terlebih dahulu: • kependaman p99 di bawah 1.5 saat untuk sembang (chat) • ketersediaan 99.9% • failover pelbagai wilayah (multi-region) • kapasiti throughput sebanyak 3x beban puncak

Sebaik sahaja saya mendapat angka-angka ini, penyelesaiannya menjadi jelas. Model termurah bagi setiap token tidak selalunya menjadi pilihan terbaik untuk pengeluaran (production). Jika model murah menggandakan kependaman anda, anda akan kehilangan pengguna.

Saya membandingkan banyak model. Perbezaan harganya sangat besar. GPT-4o berharga $10.00 bagi setiap satu juta token output. GLM-4 Plus berharga $0.80. Ujian kami menunjukkan GLM-4 Plus berprestasi hampir sama baik dengan GPT-4o untuk tugasan khusus kami seperti peringkasan (summarization) dan pengekstrakan (extraction).

Saya membina lapisan penghalaan (routing layer) untuk menguruskan perkara ini. Sistem tersebut mengikut peraturan berikut: • Hala permintaan berdasarkan jenis beban kerja • Gunakan model sandaran (fallback model) jika kependaman melonjak • Agihkan trafik merentasi wilayah • Simpan cache (cache) untuk permintaan yang kerap

Saya juga menambah cache Redis. Kadar hit (hit rate) ini mencapai 40% dalam masa satu minggu. Ini mengurangkan perbelanjaan token kami untuk pertanyaan berulang dan menurunkan kependaman daripada 1.4 saat kepada 200 milisaat.

Keputusannya: • Perbelanjaan inferens bulanan turun sebanyak 58% • kependaman p99 jatuh daripada 1.6s kepada 1.18s • Masa aktif (uptime) kekal pada 99.95% • Kadar hit cache mencapai 42%

Tiga pengajaran yang saya pelajari:

Bina suite penilaian anda sendiri. Jangan percaya penanda aras (benchmark) generik. Gunakan data pengeluaran sebenar anda.
Pantau had kadar (rate limits) dengan teliti. Trafik wilayah boleh menyebabkan lonjakan yang tidak dijangka.
Bina suis pemati (kill switch). Prompt yang buruk boleh menyebabkan lonjakan besar dalam penggunaan token. Had pada token maksimum telah menyelamatkan kami sebanyak $14,000 sekali gus.

Jika bil AI anda terlalu tinggi, tetapkan SLA anda terlebih dahulu. Bina suite penilaian daripada trafik sebenar. Kemudian, lihat harga model yang anda abaikan buat masa ini.

Sumber: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Continue reading

Saya Mengurangkan Kos API AI Saya Sebanyak 70%

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Bagaimana Saya Menghalang Ciri AI Saya Daripada Mengeringkan Dompet Saya

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹