Cara Menambahkan LLM ke Produk Anda Tanpa Merusak Biaya atau Latensi
Demo AI mudah dibuat. Anda cukup mendapatkan kunci API, menulis prompt, dan menunjukkannya kepada tim Anda.
Kemudian Anda meluncurkannya. Trafik mulai masuk. Biaya Anda melonjak dan latensi Anda meningkat tajam.
Beralih dari demo ke produk nyata memerlukan rekayasa biaya dan latensi. Berikut adalah caranya.
Kendalikan output Anda
Sebagian besar API mengenakan biaya berdasarkan token. Token output lebih mahal daripada token input.
Orang-orang menghabiskan waktu untuk meringkas prompt tetapi membiarkan model berbicara bertele-tele. Ini adalah sebuah kesalahan.
Untuk menghemat uang dan waktu, batasi outputnya:
- Minta format JSON.
- Minta satu kalimat saja.
- Tetapkan batas
max_tokens. - Perintahkan model untuk menjawab dengan singkat.
Jawaban yang singkat lebih cepat dan lebih murah.
Berhenti melakukan panggilan yang tidak perlu
Cara terbaik untuk berhemat adalah dengan tidak memanggil model sama sekali.
- Gunakan caching: Simpan respons untuk pertanyaan umum. Semantic cache dapat membantu jika pertanyaannya mirip tetapi tidak identik.
- Gunakan routing: Jangan gunakan model terbaik Anda untuk tugas-tugas sederhana. Gunakan model kecil yang murah untuk klasifikasi. Simpan model yang mahal untuk pekerjaan yang kompleks.
Tingkatkan pengalaman pengguna
Jika sebuah respons membutuhkan waktu, buatlah agar terasa cepat.
- Stream token: Tampilkan kata-kata saat sedang dibuat. Ini mengurangi persepsi waktu tunggu.
- Tunjukkan progres: Jika tugas memiliki beberapa langkah, beri tahu pengguna apa yang sedang terjadi. Gunakan teks seperti "Searching documents..." alih-alih hanya menampilkan spinner yang diam.
Kelola latensi "tail"
Beberapa permintaan akan selalu lambat. Jangan biarkan hal itu merusak produk Anda.
- Tetapkan timeout: Putuskan apa yang terjadi jika sebuah permintaan tertahan. Gunakan fallback atau model yang lebih kecil.
- Gunakan retries: Tambahkan upaya pengulangan (retries) untuk kesalahan kecil, tetapi batasi jumlahnya.
- Gunakan circuit breakers: Jika penyedia layanan mati, segera hentikan pengiriman permintaan untuk menghindari waktu tunggu yang lama.
Pantau data Anda
Anda tidak bisa memperbaiki apa yang tidak Anda ukur. Catat ketiga angka ini untuk setiap permintaan:
- Token input.
- Token output.
- Total latensi.
Perhatikan biaya per hasil pengguna yang berhasil. Fitur yang berfungsi lebih baik daripada fitur murah yang gagal.
Berhentilah memperlakukan LLM sebagai keajaiban. Perlakukan ia sebagai dependensi yang lambat dan mahal yang harus Anda kelola.
Optional learning community: https://t.me/GyaanSetuAi
